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2010fE 2$, REE AME (NFL) 的 老板 们 在 提出 诸多 要 
求 之 外 ， 还 想 将 并 规 赛季 的 比赛 场 数额 外 增加 两 场 。 作 为 国家 橄榄 球 
球员 协会 的 执行 主任 ， 我 觉得 这 并 不 是 一 件 好 事 。 橄 酸 球 赛 的 受伤 率 
已 经 高 达 100%， 因 此 多 打 比 赛 意味 着 更 多 伤 病 。 而 念 病 率 的 上 升 会 导 
致 运动 员 职 业 生 涯 进一步 缩短 ， 现 在 运动 员 的 运动 生涯 本 就 只 有 三 年 
多 一 点 。 橄 概 球 运动 员 在 赛季 期 间 每 周 都 会 冒 着 很 大 风险 投 吴 于 这 项 
美国 人 民 最 为 喜爱 的 运动 中 ， 我 们 协会 对 他 们 的 安全 、 报 酬 以 及 保护 
措施 极为 关注。 


职业 橄榄 球 产业 创造 的 价值 高 达 数 十 亿美 元 ， 而 且 依 然 在 不 断 发 
展 壮 大 之 中 。 但 在 2010 一 2011 年 间 ， 该 行业 经 历 了 数 十 年 不 遇 的 停 
摆 ， 因 此 我 需要 以 一 个 具有 说 服 力 的 方式 来 证 明 赛季 的 长 度 必须 维持 
在 十 六 场 比 赛 不 变 。 


Pe RRs TAA ELS o 


A eA > SIT > BA UM AR, RE SFC ZAR 
Ae i E T8. ASHTA AWAZ, thine 
得 上 十 我 认识 的 人 中 最 为 聪明 的 一 个 。 他 能 够 仔细 、 全 面 地 解释 问 
题 ， 不 论 你 受 教育 水 平 如 何 ， 都 能 够 听 得 懂 。 而 且 最 重要 一 点 ， 他 这 
人 还 很 风趣 。 


怀 厦 和 美国 所 有 橄榄 球迷 一 样 的 心愿 ， 国 家 橄榄 球 球员 协会 想 拯 
救 即将 到 来 的 全 国 橄 检 球 联赛 ， 因 此 我 们 把 相关 数据 交 给 了 约 甚 。 约 
园 及 其 同事 开发 出 一 个 模型 ， 展示 球员 受伤 的 时 间 和 频率 。 他 们 指出 
导致 最 严重 伤害 的 动作 (从 而 引出 对 球员 安全 造成 巨大 影响 的 “ 开 球 规 


Wi") 。 他 们 通过 数据 预测 出 平均 每 个 球员 职业 生涯 缩短 的 程度 ， 估 计 
出 将 全 国 橄 柳 球 联赛 赛季 延长 至 十 八 场 比赛 可 能 导致 的 经 济 损失 。 他 
们 同 我 们 合作 ， 将 每 场 全 国 橄榄 球 联赛 对 周边 社区 产生 的 实际 价值 进 
行 量化 ， 大 助 我 们 对 可 能 发 生 的 结束 赛季 停摆 所 产生 的 经 济 影 响 有 一 
个 更 好 的 理解 。 


最 终 ， 约 除 以 其 出 色 的 口才 加 球员、 媒体 ， 尤 其 是 美国 国家 橄 覆 
球 联盟 的 老板 们 (他 们 对 “损失 ”这 类 词 特别 关心 ) 解释 了 这 些 数据 ， 
我 们 得 以 做 出 既 符合 我 们 初 囊 ， 又 能 保障 球员 的 健康 和 安全 的 决定 ， 
最 终 促成 了 后 续 的 谈判 ， 签 订 了 一 项 历史 性 的 协议 ,该 协议 为 期 十 
年 ， 很 好 地 保障 了 美国 国家 橄榄 球 联盟 球员 的 权益 。 


本 书 很 好 地 反映 了 约翰 的 思想 。 我 对 该 书 能 够 帮助 你 在 日 常生 活 
中 做 出 更 好 的 决定 十 分 有 信心 。 通 过 阅读 本 书 ， 你 可 以 学 到 如 何 对 每 
天 接收 到 的 数据 进行 理解 、 解 读 、 思 考 。 约 翰 和 本 书 的 合 闭 者 迈克 - 格 
和 鲁 克 通过 列举 数 百 个 例子 ， 直 指 问题 本 质 ， 举 重大 轻 地 将 复 洒 问题 化 
Ai (有 时候 甚至 能 让 你 铠 俊 不 茜 ) 。 因 此 在 阅读 本 书 过 程 中 ， 要 
征 发 现 目 己 因为 忧 然 大 悟 而 频频 点 头 ， 并 开始 质疑 家 里 和 单位 中 看 到 
的 每 一 项 “事实 ?， 请 不 要 感到 惊讶 。 


有 一 个 不 可 否认 的 事实 ， 即 你 每 天 生活 中 的 数据 正在 迅速 增加 ， 
并 从 四 面 八 方 同 你 潭 来 。 因 此 了 解 如 何 利 用 数据 ， 以 及 在 什么 情况 下 
数据 会 被 滥用 十 分 重要 。 我 杀 喘 体验 了 数据 的 力量 ， 但 你 不 需要 和 一 
群 世界 上 最 富有 的 人 一 起 死命 加 班 ， 体 会 理解 数据 、 管 理 数据 的 重要 
性 。 在 你 看 电视 、 购 物 、 工 作 、 在 和 餐厅 吃饭 的 时 候 ， 这 本 书 古 你 的 不 
二 之 迄 。《 数 据 的 真相 》 见 解 深 刻 、 文 字 富 有 魅力 、 内 容 引 人 入 胜 ， 
在 关键 时 刻 填补 了 一 项 关键 空 日 。 


本 书 相当 于 橄 槛 球 队 主教 练 编写 的 比赛 战略 手册 ， 能 够 助 你 在 运 
用 数据 的 赛场 上 变 得 更 强大 、 更 聪明 、 更 有 信心 。 


视 阅 读 愉 快 。 
莫 里 斯 :F. 史 密斯 
Fe El EE] BOER ER TA 
执行 主任 


一 万 个 问题 玛 竺 解决 
Wh, HAE PAIN ERE ACE TITAS? 


20155E EK, WKNRKAR SAAS HR RARE 
品 。 这 三 类 问题 食品 的 源头 都 在 明尼苏达 州 ， 当 地 人 吃 坏 了 肚子 。 


涉 事 企业 最 终 召 回 了 约 370 万 磅 鸡肉 制品 ， 除 此 之 外 还 有 数量 不 明 


但 是 ， 为 什么 是 明尼苏达 州 ? 


征 不 是 所 有 受到 污染 的 食物 都 产 目 明 尼 共 达州 ? 不 是 。 那 是 不 是 
都 从 那儿 小 船 运输 ? 不 和 是。 十 不 是 明尼苏达 州 的 居民 更 容易 感染 沙门 
开 菌 导致 的 疾病 ? 据 我 们 所 知 ， 也 并 非 如 此 。 


据 雅 虎 健康 网 的 报道 ， 此 事件 的 内 部 联系 十 分 简单 : 明尼苏达 州 
和 美国 其 他 州 相 比 ， 在 诊断 由 食物 引起 的 疾病 方面 水 平 更 高 。 亿 ) 


有 些 人 可 能 昕 说 有 三 起 食品 召回 事件 部 发 生 在 明尼苏达 州 ， 束 认 
为 那个 地 区 的 食品 不 安全 。 但 事实 并 非 如 此 。 和 恰恰 相反 ， 由 于 明 尼 苏 
达州 健康 农业 部 工作 出 色 ， 你 的 健康 在 那里 可 能 比 在 美国 其 他 地 区 得 
到 更 好 的 保障 。 


每 天 你 都 被 媒体 报道 或 其 他 来 源 的 消 居所 包围 ， 这 些 消 忌 通 常 充 
满 了 隐藏 信息 言 筷 
使 你 成 熟地 汲取 数据 (“信息 ”或 “事实 ”比较 高 端的 说 法 ) 。 


全 书 通 篇 将 回答 以 下 问题 : 

一 则 虚假 新 闻 如 何 让 股市 一 下 子 蒸发 挥 1360 亿 美元 ? (第 六 章 ) 
福 岛 核 灾难 是 否 可 以 避免 ? 《第 八 章 ) 

4/5 的 儿科 医生 是 如 何 看 待 婴 儿 食品 的 ? BEE) 

如 何 知 道 哪 个 总 统 候选 人 的 选票 真正 领先 ? (BAH) 

吃 烤 奶酪 三 明治 的 人 们 真 的 更 为 “性 福 ” 吗 ? (第 四 章 ) 


“小 数据 ?不 是 一 个 第 用 词 。 的 确 ， 现 在 还 不 是 。 我 们 造 出 这 个 
词 ， 用 来 描述 你 每 天 碰 到 的 数 以 吨 计 的 数据 。 我 们 反 写 了 这 本 书 ， 帮 
助 你 在 理解 小 数据 时 ， 更 得 心 应 手 、 更 灵活 、 更 快捷 。 


因为 哪怕 你 并 没有 接受 过 成 为 数据 专家 的 相关 训练 ， 你 依然 需要 
解读 数据 。 如 果 你 是 名 律师 ， 你 需要 看 出 证 人 是 否 在 陈述 证 词 的 时 候 
有 所 保留 。 如 有 果 你 是 名 护士 ， 你 必须 理解 患者 发 热 的 证 状 是 由 疾病 引 
起 的 ， 还 是 仅仅 与 疾病 相关 。 如 果 你 是 一 名 首席 执行 官 ， 你 会 想 要 预 
测 下 个 季度 收 荔 为 多 少 。 如 果 你 是 一 名 家 长 ， 你 会 想 妥 知道 目 己 孩子 
的 能 力 是 否 超过 (或 低 于 ) 平均 水 平 。 


这 本 书 讲 的 是 如 何 利用 生活 中 的 数据 做 出 更 好 的 决策 。 


纵 观 全 书 ， 我 们 会 运用 真实 或 假设 的 例 和 于 ， 重 点 指出 经 党 被 曲解 
的 数据 概念 。 在 每 一 章 的 结尾 ， 我 们 会 列 出 5 种 让 你 运用 所 学 知识 的 方 
式 。 你 可 以 将 本 书 从 头 读 到 尾 ， 也 可 以 直接 挑 你 感 兴 趣 的 章 读 。 


本 书 开篇 ， 记 述 了 脸谱 网 上 两 个 老 友 一 段 简单 的 留言 对 话 。 这 上 段 
留言 的 时 间 为 2013 年 秋天 ， 留 言 双方 为 约翰 〈 经 济 学 家 、 统 计 学 家 ) 
和 迈克 (作家 ) 。 


"WE, 146A SARS, BOY EAD SUELOS... BN BRS 
时 间 聊 聊 ? ” 


约翰 作为 职业 经 济 学 家 ， 有 着 同 世界 各 地 公司 商量 如 何 解 读 其 数 
据 的 经 验 。 基 于 这 些 经 验 ， 他 和 迈克 分 至 了 想 要 让 数据 概念 变 得 通俗 
易 慌 的 想法 后 ， 书 的 脉络 渐渐 成 形 。 


“明年 一 整 年 我 们 可 能 会 为 这 件 事 乐此不疲 。” 约 朝 写 道 。 

事实 果真 如 此 。 (准确 说 来 ， 是 整整 两 年 。) 

这 条 脸谱 网 留言 下 的 回复 一 来 二 去 积 搬 到 了 3288 条 。 我 们 期 间 也 
发 现 我 们 生活 中 接触 的 数据 比 想象 中 更 多 。 不 论 何 处 ， 只 要 稍 加 观 
察 ， 束 能 发 现 越 来 越 多 数据 被 误 读 、 曲 解 ， 或 者 干脆 数据 本 吴 殉 是 错 
运 的 例子 。 


TEMA TARP, RRA EM PE CRANE, RTS 
实在 在 的 文字 。 


希望 你 们 能 喜欢 。 


在 切入 正题 之 前 ， 先 呈 上 一 个 免责 声明 : 约翰 作为 职业 经 济 学 家 
和 统计 学 家 ,他 的 日 第 工作 包括 作为 专家 证 人 对 数据 进行 续 密 的 分 
析 ， 为 《财富 》 灯 志 评 选 出 的 世界 前 100 强 公司 、 贸 易 集团 、 政 府 机 构 
打 涉 及 数 百 万 美元 的 官司 。( 央 本 书 只 对 关键 的 数据 概念 做 一 个 基本 的 
概括 性 的 论述 ， 而 非 内 容 全 面 的 教科 书 。 因 此 如 果 你 反对 本 书 所 推 时 
的 让 读者 在 阅读 中 能 “会 心 一 笑 ” 这 一 特点 ， 那 你 不 用 读 下 去 了 。 有 一 
个 好 消 恩 ， 即 本 书 兼 具 教 育 性 和 娱乐 性 ， 因 此 书 中 肯定 有 好 玩 的 地 方 
一 一 如 解释 为 什么 你 汽车 的 油箱 不 会 完全 空 挥 ， 为 什么 名 人 不 会 三 人 
同时 死亡 ， 以 及 为 什么 喝 过 期 牛奶 没事 。 有 了 上 面 的 免责 声明 在 允 ， 
我 们 现在 开始 谈 谈 数据 吧 。 


“Osamu Corporation Voluntarily Recalls Frozen Yellow Fin Tuna Chunk Meat Due to 
Possible Health Risk," U.S. Food and Drug Administration Recall Press Release, July 21, 
2015, http://www.fda.gov/Safety/Recalls/ucm455622.htm; “Barber Foods Recalls Stuffed 
Chicken Products Due to Possible Salmonella Enteritidis Contamination," United States 
Department of Agriculture News Release, July 12, 2015, 
http://www.fsis.usda.gov/wps/portal/fsis/topics/recalls- and- public- health- alerts/ recall- case- 
archive/archive/2015/ recall- 096- 2015- release; “Aspen Foods Recalls Frozen, Raw, Stuffed 
& Breaded Chicken Products Due to Possible Salmonella Enteritidis Contamination,” United 
States Department of Agriculture News Release, July 15, 2015, 
http://www.fsis.usda.gov/wps/portal/fsis/topics/ recalls- and- public- health- alerts/ recall- 
case- archive/archive/2015/ recall- 101- 2015- release. 


Jenna Birch, “Why Recent Food Poisoning Outbreaks All Began in This One State,” 
Yahoo! Health, July 24, 2015, https://www.yahoo.com/health/why-do-so- many- foodborne- 
illness- outbreaks- begin- 124925339332.html. According to the article, Minnesota is better 
than other states because it is “incredibly thorough and quick” in terms of interviewing people 
who may be involved in cases, and because it does additional DNA analysis to identify the 


source of the illness. In other words, Minnesota is using data to solve the problem. 


No confidential or client information has been used in the preparation of this book. This 
book represents only the views of the authors, not other economists or employees of 
Edgeworth Economics. 


第 一 章 无 处 不 在 的 数据 : 从 大 数据 到 小 数据 


从 早晨 睁 开眼 睛 开始 ， 你 便 被 数据 包围 。 根 据 * 全 球 信息 工业 中 
心 ” (隶属 于 加 州 大 学 圣迭戈 分 校 ) (时 “多 少 信 息 *" 项 目的 研究 结果 ， 其 
实 美国 人 平均 每 天 接收 约 34 千 兆 的 数据 。 


34 千 兆 可 不 是 个 小 数目 。1 千 兆 ”或 平常 会 缩写 成 GB， 相 当 于 
超过 10 亿 字 节 (一 个 字 节 等 同 于 一 个 字母 或 一 个 数字 ) 。 据 BBC (X 
国 广播 公司 ) 引用 的 说 法 ， 如 果 把 34GB 的 数据 打印 出 来 ， 能 够 装 满 几 
十 辆 卡车 。( 电 这 还 仅仅 只 涵盖 了 你 家 中 活动 的 数据 源 ， 如 电视 、 收 音 
机 、 电 脑 、 电 话 等 一 这 34GB 的 数据 似乎 并 不 包括 我 们 周围 存在 的 数 
据 ， 也 不 包括 我 们 工作 中 接收 到 的 信息 ， 如 果 把 这 些 都 算 进 去 ， 那 这 
个 数据 总 量 会 是 34GB 的 两 三 倍 。 包 


我 们 来 化 上 一 分 钟 ， 想 一 想 你 在 一 天 刚 开 始 的 一 两 个 小 时 内 可 能 
碰 到 的 “小 数据 *， 并 对 其 加 以 解读 : 


你 睁 开眼 睛 ， 看 到 了 一 天 中 的 第 一 个 数据 一 一 亲 钟 上 幽幽 亮 着 的 


接收 数据 : 约 9 字 节 。 


你 拿 起 手机 。 哪 但 在 起 床 前 ， 浏 览 十 几 封 电子 邮件 ， 看 儿 条 信 
思 ， 看 一 下 交通 情况 ， 读 几 条 重大 新 闻 也 并 非 难事 。 


接收 数据 : 约 2.1M (1M= 约 100 万 字 节 ) e 


你 走 进 洽 室 ， 站 上 体重 秤 ， 秤 上 的 读数 表明 你 昨 晚 不 该 吃 比 院 。 


接收 数据 : 约 3 字 节 。 

你 可 以 从 牙刷 上 接收 到 数据 吗 ? 当然 可 以 ， 只 要 是 那 种 每 30 秒 震 
动 一 次 提醒 你 换个 刷牙 位 置 的 电动 牙刷 就 行 。 震 动 是 数据 的 另 一 种 表 
现形 式 。 

接收 数据 : 约 60 字 节 © 

UT! 你 手机 上 的 日 历 铃 声 提 醒 你 要 开 一 次 客户 会 议 。 

接收 数据 : 约 43 字 节 。 


你 服用 多 元 维生素 吗 ? 吃 不 吃 鱼 油 ? 你 得 仔细 阅读 标签 内 容 ， 从 
而 理解 上 面 的 所 有 数据 。 药 品 标签 上 的 数据 都 非常 重要 。 


接收 数据 : 2M 。 


女儿 要 你 在 她 的 数学 试卷 上 签字 。 你 如 何 知 道 目 己 征 否 看 到 了 所 
有 数据 ? 你 女儿 有 没有 把 其 他 试卷 藏 起 来 ? 试卷 上 的 分 数 又 代表 了 什 
A? 一 一 代表 了 她 的 能 力 ， 或 者 仅仅 与 她 平时 上 课 出 惑 有 关 ， 还 是 有 
其 他 的 打分 标准 ? 


接收 数据 : 约 46KB (1KB= 约 1000 个 字 节 ) ° 


你 早晨 是 通过 什么 方式 看 新 闻 的 ? 俄 勒 闪 大 学 的 研究 表明 ， 同 阅 
读 网 络 新 闻 相 比 ， 人 们 在 阅读 报纸 时 ， 能 记得 更 多 信息 (各 。 浏 览 新 闻 
标题 的 时 候 ， 你 看 到 以 下 信息 : 


最 近 投 票 显示 有 76% 的 美国 人 对 国会 工作 不 满 。 


波士顿 棱 球 队 红 福 队 排 名 第 一 一 一 15 场 连 胜 ， 比 第 二 名 整整 多 出 7 
场 。 


天 和 气 预 报 显示 最 高 气温 为 70 华 氏 度 (21°C) ， 最 低 气 温 为 58 华 氏 
度 (14°C) e 


研究 表明 每 天 喝 一 杯 红酒 能 降低 心脏 疾病 的 发 病 率 。 
从 政府 预算 可 以 看 出 美联储 将 再 次 下 调 利率 。 
接收 数据 : 约 3.1M ° 


你 想 知 道 一 旦 利率 下 调 ， 重 做 购房 贷款 需要 人 花费 多 少 金钱 与 时 间 
吗 ? 你 在 智能 手机 的 一 个 App (应 用 程序 ) 中 加 上 一 条 记录 (该 记录 
自动 与 计算 机 同步 ) ， 并 以 电子 邮件 的 形式 发 送 给 你 的 配偶 。 


接收 数据 : 约 2.2M 。 

该 上 班 了 。 你 一 坐 上 车 ， 马 上 就 面 对 一 个 满 是 数据 的 仪表 盘 。 机 
油灯 是 否 亮 着 ? 发 动机 温度 如 何 ? 胎 压 如 何 ? 有 些 数据 会 通过 警示 灯 
是 否 亮 起 显示 ， 有 些 会 通过 刻度 盘 显示 ， 有 些 则 显示 在 电子 屏 上 。 

接收 数据 : 约 63 字 节 。 


你 车 了 于 的 油箱 里 还 剩 4 箱 燃油 。 这 究竟 说 明了 什么 ? 为 什么 哪怕 
仪表 盘 上 显示 油箱 已 空 ， 车 子 依然 能 够 继续 行驶 ? 《答案 见 第 六 章 ) 


接收 数据 : 约 26 字 节 。 

你 到 了 加 油 站 ， 公 告 牌 上 标示 的 汽油 价格 比 路 对 面 加 油 站 每 加 仓 
便宜 4 美 分 ， 但 油价 便宜 的 加 油 站 只 收 现金 。 每 加 仑 4 美 分 的 差价 是 否 
足以 影响 你 的 加 油 选 择 ? 


接收 数据 : 约 2.0M 。 


(KEP EACH TARE AS? 如 果 你 在 华盛顿 的 话 ， 可 能 
会 走 495 号 州 际 公 路 ， 并 且 缴 纳 一 笔 根据 行 驶 距离 收取 的 “动态 ”通行 费 
CO. ( 换 名 话说， 行驶 过 程 中 数据 被 收集 ， 接 着 定价 。) 但 是 过 路 费 
的 定价 是 否 产 格 按照 供需 关系 ?或 只 是 利用 隐藏 数据 收取 高 额 费用 ? 


接收 数据 : 约 44.0M ° 


你 到 星巴克 买 咖 啡 。 严 16 熏 司 的 大 杯 还 是 20 僵 司 的 超大 杯 呢 ? 你 
想 了 下 价格 差 (还 有 卡路里 ) 。 点 完 咖啡 ， 你 看 了 一 下 善 品 糖 、 
SweetN Low (一 个 甜品 品牌 、 怡 口 糖 的 包装 ， 标 签 上 都 标明 了 和 营 
养 和 成 分 。 〈 真 的 糖 和 蜂 密 没 有 时 养 成 分 表 ， 因 此 比较 难 和 这 些 竞争 
产品 做 比较 。) 


接收 数据 : 约 10.1KB ° 


你 最 终 到 了 办 公 室 ， 该 工作 了 “。 看 新 闻 、 碍 电子 邮件 、 审 阅 表 
格 、 协 商 合同 、 看 销售 预测 、 打 电话 、 开 会 ..…. 所 有 的 这 一 切 都 是 数 
据 ， 整 天 不 断 。 


但 束 算 是 以 上 这 些 例子 都 没 能 真正 解释 数据 是 如 何 影响 到 我 们 生 
活 的 。 因 为 上 面 的 这 些 例子 夹杂 着 去 哪里 加 油 、 影 响 你 孩子 数学 成 绩 
有 哪些 因素 之 类 的 事 ， 小 数据 能 够 影响 到 你 的 心情 ， 影 响 到 你 能 赚 多 
少 钱 ， 甚 至 能 影响 到 你 的 寿命 。 比 如 : 


你 应 该 在 哪里 买房 或 租房 ? 你 应 该 把 更 多 注意 力 放 在 学 校 排名 、 
上 下 班 所 花 的 时 间 、 犯 罪 数据 、 房 屋 转 手 价 值 还 是 其 他 数据 上 ? 


WARK REBAR LP, (ERR RABE 
受 。 你 应 该 运用 什么 数据 来 证 明 目 己 应 得 的 薪资 待遇 水 平 ? 你 把 这 些 
数据 递交 给 那个 可 能 成 为 你 新 老板 的 人 ， 她 会 如 何 看 待 这 些 数据 ? 


你 该 如 何 判断 应 该 找 什 么 样 的 人 谈 恋 爱 ， 或 者 有 可 能 的 话 同 其 步 
AMET BCE? 你 会 使 用 婚恋 网 站 吗 ? 在 那些 网 站 上 ， 你 的 数据 将 经 过 
过 滤 、 解 读 ， 从 而 定位 出 一 个 与 你 相 匹 配 的 对 象 。 什 么 数据 对 你 来 说 
最 为 重要 ? 你 父母 的 喘 高 ? 对 方 毕业 于 哪 所 大 学 ? 还 是 对 方 能 赚 多 少 
a? 


如 条 医生 告诉 你 ， 你 的 血糖 值 或 胆固醇 水 平 超标 ， 你 会 怎样 ? 你 
体检 得 出 的 数值 ， 有 没有 一 个 特定 的 临界 值 ， 超 过 以 后 吏 证 明 是 危险 
Hy? 上 升 的 指数 是 源 于 基因 、 人 饮食， 还 是 其 他 综合 因素 ?” 医生 可 能 会 
让 你 每 天 验 血 ， 并 且 记 隶 饮食 (从 而 为 你 和 医生 收集 更 多 数据 来 做 分 
Wr) ° 


以 上 这 些 情况 你 会 如 何 处 理 ? 


“我 们 拥有 的 数据 量 很 丰富 ，”《 时 代 》 杂 志 指 出 ，“ 但 数据 给 我 们 
带 来 的 回报 正在 迅速 减少 ， 因 为 一 旦 过 了 某 个 点 ， 你 掌握 的 信息 越 
多 ， 就 越 难 理解 其 所 包含 的 意义 。”# 当 


听 起 来 是 不 是 很 卫 熟 ? 你 并 不 是 唯一 这 么 想 的 。 


- 


Roger E. Bohn and James E. Short, *How Much Information? 2009 Report on American 
Consumers" (San Diego, University of California: Global Infor mation Industry Center, 
December 2009), 1—36, http://hmi.ucsd.edu/pdf/HMI 2009 ConsumerReport Dec9 2009.pdf. 


2. The BBC cited a professor who estimated one GB as the equivalent of a pickup truck 
filled with printed pages. “Britons Growing ‘Digitally Obese, " BBC News website, December 
9, 2004, http://news.bbc.co.uk/2/hi/technology/4079417.stm. 


3. That said, as the UC San Diego study explains, some of this data consumption happens 
simultaneously. For example, you might have the radio on as you work on your laptop. 


4. Arthur D. Santana, Randall Livingstone, and Yoon Cho, “Medium Matters: Newsreaders' 
Recall and Engagement with Online and Print Newspapers,"Print in the Mix website, accessed 
August 22, 2015, http://printinthemix.com/Research/Show/90. 


5. 


As the organization that operates the Express Lanes explains it, “Sensors alongside the 
road monitor traffic levels and speed, and toll prices adjust to maitain free- flowing conditions 
in the Lanes— even during peak times— to provide value to customers.” “Using the Express 
Lanes,” Express Lanes website, accessed September 1, 2015, 


https://www.expresslanes.com/faqs. 


Lev Grossman, “The Old Answer to Humanity’s Newest Problem: Data,"Time website, 
June 25, 2015, http://time.com/3935273/ how- art- solves- the- data- problem/? 
iid-toc 062515. 


66 小 数据 ” 


你 也 许 听 说 过 大 数据 。 所 谓 大 数据 ， 指 的 是 那 种 量 特别 大 ， 如 果 
没有 专业 的 软件 和 足够 的 计算 机 容量 基本 无 法 处 理 的 数据 己 。 比 如 联 
合 包 庄 运输 服务 公司 (UPS) 每 辆 车 收集 200 个 数据 点 (该 公司 有 大 约 
10 万 辆 车 ) ， 利 用 这 些 数 据 节 省 空 闪 时间 和 燃料 。 绢 博 社 有 一 篇 文章 
写 道 :“ 每 个 司机 每 天 少 开 1 英里 路 程 能 够 为 公司 节省 折合 高 达 50 万 美 
元 的 燃料 费 、 车 辆 维护 费 以 及 时 间 o 5 


世界 各 国 利 用 大 数据 解决 大 问题 。 荷 兰 利用 大 数据 管理 水 源 。 (时 
食物 运输 公司 利用 大 数据 满足 客户 深夜 进餐 的 需求 。(3IBM (国际 机 
器 公司 ) 利用 以 PB 计 的 数据 确定 可 能 发 生 的 食品 污染 情况 。 (1PB = 
1000000GB) 


大 数据 就 像 * 性 感 美女 ”， 能 上 头条 。 根 据 《福布斯 》 杂 志 一 篇 文 
章 的 说 法 ， 与 大 数据 相关 的 工作 需求 每 年 以 80% 的 速度 增长 千 ) 。《 华 
尔 街 日 报 》 引 用 与 数据 相关 的 项 目的 不 断 增长 也 说 明了 ， 商 学 院 的 学 
生 * 对 大 数据 求知 若 渴 ”。 (2) 


但 如 你 所 见 ， 正 是 那些 小 数据 一 一 那 每 天 环绕 你 周围 的 以 字 节 记 
的 数据 一 一 对 你 每 天 的 健康 、 开 销 、 工 作 、 人 际 关 系 等 诸多 方面 产生 
了 巨大 影响 。 从 食品 标签 到 天 气 预报 ， 从 银行 账户 到 医疗 卫生 ， 小 数 
据 无 所 不 在 。 


不 笠 的 是 哪 人 这些 数 据 就 摆 在 面前 ， 人 们 依然 对 其 心 存疑 赛 。 


《波士顿 环球 报 》 上 的 一 篇 文章 指出 : “事实 并 不 总 能 改变 我 们 的 
想法 ， 能 改变 我 们 想法 的 反而 并 非 事实 。#\ 因 该 文章 引用 密 敬 根 大 学 


的 一 项 研究 ， 指 出 那些 受 误 导 的 人 们 会 坚信 目 己 的 看 法 ， 其 中 有 些 人 
甚至 在 面 对 事 实 的 时 候 反 而 更 坚定 了 自己 错误 的 想法 。 (很 明显 ,很 
多 人 只 是 不 愿 承认 自己 错 了 而 已 。) 


但 是 ， 有 和 句 话说 得 好 ， 传 言 再 多 也 不 能 成 为 数据 。 比 如 你 所 有 和 邻 
居 都 说 今年 夏天 是 有 史 以 来 最 热 的 ， 并 不 能 说 明 这 网 是 真 的 。 


艾 米 丽 : 奥 斯 塔 尔 是 布 表 大 学 经 济 学 副教授 ， 闭 有 《你 理应 得 到 更 
好 的 : 为 什么 传统 妊 垦 智 六 是 错 的 以 及 什么 才 是 你 应 该 知晓 的 》 一 
书 ， 当 我 们 问 她 人 们 如 何在 每 天 的 生活 中 解读 数据 时 ， 她 说 : “我 认为 
我 们 所 有 人 面 对 的 最 大 问题 是 过 分 解读 传闻 。” 


“人 们 十 分 乐于 从 个 人 故事 或 经 历 中 学 东西 ，” 她 继续 说 道 , “你 很 
难 强迫 目 己 无 视 映 边 的 传言 一 一 或 最 低 限度 将 其 当 作 一 个 数据 点 来 看 
一 一 继而 从 其 他 数据 忌 结 出 结论 。” 


传言 可 能 让 人 印象 深刻 ， 可 能 听 起 来 十 分 可 信 ， 但 面 对 事 实 才 有 是 
关键。 


1. On its website, IBM defines big data as “data sets whose size or type is beyond the ability 
of traditional relational databases to capture, manage, and process the data with low- latency.” 
“What Is Big Data Analytics?,” IBM website, accessed August 22, 2015, http://www- 
01.ibm.com/software/data/infosphere/hadoop/what-is- big- data- analytics.html. 
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Mary Schlangenstein, “UPS Crunches Data to Make Routes More Efficient, Save Gas,” 
Bloomberg Business, October 30, 2013, http://www.bloomberg.com/news/articles/2013-10-30/ 


ups- uses- big- data-to- make- routes- more- efficient save- gas. 
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Toby Wolpe, *Big Data Deluge: How Dutch Water Is Trying to Turn the Tide,"ZDnet 
website, October 1, 2013, http://www.zdnet.com/article/ big- data- deluge- how- dutch- water- 
is-trying-to- turn- the- tide/. 


4. Alice Truong, “How Naturebox Uses Big Data to Stock Your Snack Pantry,” Fast 
Company website, June 4, 2014, http://www.fastcompany.com/3031078/fast- feed/ how- 


naturebox- uses- big- data-to- stock- your- snack- pantry. 


5. “IBM Research Breakthrough Helps Public Health Officials Improve Food Safety,” IBM 
website, July 3, 2014, accessed July 29, 2015, https://www- 
03.ibm.com/press/us/en/pressrelease/44295.wss. 


6. Louis Columbus, “Where Big Data Jobs Will Be in 2015," Forbes website, December 29, 
2014, http://www.forbes.com/sites/louiscolumbus/2014/12/29/where- big- data-jobs- will-be- 
in-2015/. 


7. Lindsay Gellman, *Big Data Gets Master Treatment at B-Schools," Wall Street Journal 
website, November 5, 2014, http://www.wsj.com/articles/ big- data- gets- master- treatment-at- 
b- schools- 1415226291. 


8. Joe Keohane, “How Facts Backfire,” Boston.com website, July 11, 2010, 
http:/www.boston.com/bostonglobe/ideas/articles/2010/07/11/how_facts_backfire/ 


小 情境 


这 里 还 有 一 件 你 必须 留心 的 事 一 一 在 日 常生 活 中 ， 你 也 许 会 根据 
情境 看 数据 ， 或 将 数据 和 你 喘 边 的 其 他 数据 做 比较 。 有 时候 情 境 和 其 
他 数据 是 有 用 的 ， 但 有 时 候 却 会 误导 人 。 


试想 : 


在 加 利 福 尼 亚 州 赫 莫 院 比 奇 市 ， 消 防 队 的 平均 反应 时 间 约 为 5 分 钟 
多 一 点 。( 央 这 个 反应 时 间 算 不 算 快 昵 ? 为 了 解读 这 个 数据 ， 你 可 能 
将 其 同 这 个 城市 过 去 的 消防 队 反应 时 间 做 比较 ， 或 者 在 类 似 的 城市 间 
做 比较 ， 或 者 和 其 他 数据 做 比较 。 


位 于 休斯敦 的 乔治 :布什 国际 机 场 领导 层 接 到 了 有 关 乘 客 行李 到 达 
时 间 过 长 的 投诉 。 因 此 他 们 把 取 行 李 处 转移 到 了 离 出 站 口 很 远 的 地 
方 。 旅 客 于 十 把 时 间 都 伦 在 了 走路 上 一 一 而 不 是 等 行李 上 ， 投 诉 量 减 
少 了 ， 因 为 人 们 觉得 拿 行 李 的 时 间 缩 短 了 。 


媒介 不 同 ， 我 们 接收 、 解 读数 据 的 方式 也 不 同 。 比 如 你 是 否 觉得 
《华盛顿 邮 报 》 网 络 版 因为 可 以 随时 更 新 ， 所 以 比 印刷 版 更 为 准确 ? 
你 是 否 喜欢 读 纸 质 杂 志 ， 因 为 可 以 把 有 趣 的 文章 裁 甬 下 来 ?” 精 逆 版 的 
书 是 否 比 平 小 版 的 书 看 起 来 更 为 权威 ， 尺 管 它们 部 是 印刷 品 ? 


赛 斯 .七 登 在 一 篇 博文 中 问 道 : “在 一 家 餐厅 ， 最 便宜 的 红酒 价格 
为 30 美 元 ...... 而 同样 这 款 30 美 元 的 红酒 是 隔壁 一 家 餐厅 里 最 贵 的 
酒 ..….. 这 款 酒 在 哪个 餐厅 里 喝 起 来 味道 更 好 ? > 党 情境 至 关 重 要 。 


当然 ， 还 有 一 些 你 甚至 可 能 不 知 其 存在 的 隐藏 数据 。 例 如 ， 根 据 
《华尔街 日 报 》 报 道 忆 ， 如 果 你 几 年 前 在 一 个 潮 温 的 天 气 查看 一 个 名 
为 "天气 频道 ”的 应 用 ， 你 也 许 会 发 现 一 个 潘婷 Pro_V 洗 发 水 的 广告 ( 专 
门 修 护 发 丝 分 又 ) 。 可 能 这 个 广告 只 是 个 巧合 ， 但 事实 上 这 个 广告 是 
根据 不 同 邮编 ， 专 门 以 女性 为 目标 投放 的 。 如 果 温度 较 高 (会 引起 头 
发 分 又 ) ， 这 则 广告 就 会 出 现 ， 如 果 温度 较 低 ， 则 会 出 现 其 他 头发 护 
理 产品 的 广告 。 你 能 看 到 天 气 预报 ， 你 也 能 看 到 广告 ， 不 过 除非 你 
在 “天 气 频道 ”工作 ， 否 则 你 也 许 无 法 看 出 这 两 者 之 间 的 联系 。 在 这 个 
由 数据 驱动 的 世界 ， 你 并 不 总 能 了 解 到 底 是 什么 在 驱动 数据 。 


1. Data Analysis Report Fire and Emergency Medical Services Hermosa Beach, California 
(Washington, D.C.: ICMA Center for Public Safety Management,August 2013), 1- 52, 
http://www.hermosabch.org/modules/showdocument.aspx?documentid-3314. 


2. Seth Godin, *Compared to What: Marketing and Relativity," Seth Godin Blog, September 
23, 2013, http://sethgodin.typepad.com/seths_blog/2013/09/marketing- and- relativity.html. 


3. Katherine Rosman, *Weather Channel Now Also Forecasts What You'll Buy,"Wall Street 
Journal website, August 14, 2013, http://www.wsj.com/articles/SB1 
0001424127887323639704579012674092402660. 


成 熟 的 数据 接收 者 


如 果 你 从 纽约 来 到 新 泽 西 ， 你 可 能 记得 赛 姆 斯 服装 店 的 电视 广 
告 ， 在 广告 里 ， 赛 . 赛 姆 斯 对 观众 说 : “成熟 的 客户 是 我 们 最 好 的 客 
户 。”( 有 趣 之 事 ; 赛 把 他 的 姓 按 照 店名 改 成 了 “ 赛 姆 斯 ”。 人 轩 ) 


赛 说 得 没 错 。 成 熟 的 数据 接收 者 远 胜 众人 。 


作为 一 个 见 多 识 广 的 数据 接收 者 ， 你 的 任务 便 是 不 断 问 问题 ， 从 
而 理解 目 己 所 得 到 的 数据 是 如 何 影响 目 己 生 话 的 。 你 需要 问 目 己 : 


政党 候选 人 在 其 电视 广告 中 ， 有 哪些 东西 没有 说 出 来 ? 


记者 坪 否 使 用 了 精确 的 数据 样本 一 一 抑或 她 只 分 束 了 能 够 文 持 目 
己 文 章 的 数据 ? 


销售 预测 是 基于 哪些 数据 得 出 的 ? 


你 的 医生 说 你 的 病 是 由 某 些 行为 引起 的 一 一 还 是 这 些 行 为 只 古 丰 
你 的 疾病 相关 ? 


市 场 推 广 人 员 在 产品 包装 上 重点 突出 了 什么 ， 为 什么 突出 这 些 数 
据 ? 


为 什么 年 度 报告 上 ， 有 些 数 据 以 饼 状 图 的 形式 出 现 ， 而 其 他 数据 
以 柱状 图 出 现 ? 


有 些 时 候 ， 数 据 会 癌 你 兜售 东西 一 一 完 竟 兜售 的 是 产品 ， 有 是 服 
务 ， 还 是 观点 ? 在 这 些 情 况 下 ， 只 需 知 道 新 闻 播 报 员 想 要 得 到 你 的 天 
注 ， 广 告 商 想 要 得 到 你 的 钱 ， 政 客 想 要 得 到 你 的 选票 融 能 帮助 你 成 为 


I 


一 个 更 好 的 数据 接收 者 。 但 有 时 候 并 没有 这 一 整套 流程 一 一 有 的 仅仅 
只 是 数据 ， 你 需要 了 解 这 些 数据 以 理解 周围 的 世界 。 


总 而 襄 之 ， 这 便 是 本 书 的 主要 内 容 ， 帮 助 你 发 现 生活 中 的 所 有 “小 
数据 ”， 告 诉 你 如 何 解读 这 些小 数据 ， 并 为 你 提供 切实 有 效 的 技巧 来 避 
免 常 见 的 数据 陷阱 ， 使 你 能 够 成 为 一 个 成 熟 的 数据 接收 者 ， 并 且 在 日 
常生 活 中 做 出 更 好 的 决策 。 


我 们 这 束 开 始 吧 。 


1. Sy Syms was born Seymore Merinsky, but his family changed their name to Merns when 
Sy's dad and brother opened a store with the same name. Sy opened a competing store, but 
when he lost a legal fight to call it “Sy Merns," he renamed it SYMS— and then changed his 
own name to match. *Sy Syms, Founder of SYMS Corp., Dies at Age 83," PR Newswire 
website, November 17, 2009, accessed July 29, 2015, http://www.prnewswire.com/ news- 
releases/sy- syms- founder-of- syms- corp- dies-at-age-83-70407382.html. 


第 二 章 对 “挑战 者 号 ”评估 结果 的 异议 : 抽样 如 何 
影响 结果 
“就 在 那 残 酷 的 瞬间 ， 我 们 雀跃 的 心情 一 下 子 变 成 了 铠 惧 ; 我 们 呆 
在 原 地 看 着 眼前 的 一 切 ， 试 着 弄 清 楚 到 底 发 生 了 什么 事 。* 汪 
1986 年 1 月 31 日 ， 罗 纳 德 :里 根 总 统 站 在 约翰 运 航 天 中 心 外 ， 对 几 


天 前 因 * 挑 战 者 号 ?航天 飞机 在 半 至 中 解体 而 武生 的 7 名 宇航 员 的 家 人 、 
朋友 、 同 事 发 表 讲 话 。 


之 后 数 月 ， 专 家 们 化 了 数 不 清 的 时 间 采 访 主要 目击 者 ， 审 核 相 关 
证 据 ， 记 杂 调 查 结果 。 


最 终 ， 问 题 的 焦点 落 在 了 数据 上 。 


负责 航天 飞机 发 射 的 人 员 犯 了 一 个 典型 的 错误 ， 他 们 把 注意 力 放 
在 了 错误 的 数据 上 。 于 是 7 个 国家 英雄 "挣脱 了 大 地 粗暴 的 束缚 ”。 人 四 


1. Ronald Reagan, “Challenger Memorial Speech,” January 31, 1986, Johnson Space 
Center, Houston, Texas, YouTube, accessed April 25, 2015, https://www.youtube.com/watch? 
v-PhI9OQp6ADg. 


2. President Reagan used this phrase— originally penned by British aviator John Gillespie 
Magee— in a speech to the nation on the day of the accident,at 5 p.m. EST on January 28, 
1986, YouTube, https://www.youtube.com/watch?v-qoQlkFryriQ. 
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有 一 本 记录 此 次 事件 的 书 是 这 么 描写 当时 情况 的 : “1986 年 1 月 28 
日 上 午 ，' 挑 战 者 号 ;航天 飞机 驶 同 卡 纳 维 拉 尔 角 空 军 站 上 方 冰 冷 的 蓝 
天 ， 执 行 代号 为 51- 志 的 任务 。 在 兴高采烈 的 观众 和 屏 奶 凝神 的 飞行 控 
制 员 看 来 ， 这 次 发 射 一 切 正常 。 但 是 ， 升 空 后 不 到 73 秒 ， 飞 机 的 外 挂 
燃料 箱 破 裂 ， 里 面 的 液体 燃料 随 之 爆炸 ，' 挑 战 者 号 ;在 空中 解体 。” 归 


《 忌 统 委员 会 关于 “挑战 者 号 ”航天 飞机 事故 的 报告 》 指 出 : “具体 
来 说 ， 问 题 出 在 防止 热 燃料 泄漏 的 密封 装置 破损 上 .…...” 固 调查 人 员 
很 快 将 注意 力 集中 到 了 密封 装置 的 关键 部 分 一 一 固态 火箭 发 动机 两 个 
部 件 〈U 型 接头 和 柄 脚 ) 之 间 的 O 型 橡胶 环 上 。 


“挑战 者 号 "上 的 0 型 环 富有 弹性 ， 具 备 在 几 毫 秒 内 收缩 、 膨 胀 的 
能 力 。 但 O 型 环 的 弹性 < 和 温度 直接 相关 ...….0 型 环 在 暖和 的 环境 下 会 
膨胀 ， 填 满 U 型 接头 和 柄 脚 之 间 的 空 险 ， 但 在 冰冷 的 环境 下 可 能 就 无 
法 做 到 这 一 点 ”。( 沁 事实 上 ， 调 查 人 员 发 现 ， 处 于 压缩 状态 下 的 0 型 环 
在 75 华 氏 度 (24°C) 环境 中 的 反应 能 力 是 在 30 华 氏 度 (-1°C) 环境 中 
的 5 倍 。 


“挑战 者 号 "发射 时 的 气温 为 36 华 氏 度 Qc) 69 


《委员 会 报告 》 指 出 0 型 环 * 有 可 能 ”并 没有 像 所 需要 的 那样 收 
缩 、 膨 胀 ， 从 而 出 现 了 让 燃料 泄漏 的 空隙 ， 拱 驱 了 “挑战 者 号 "二 )， 这 
一 点 表明 “哪怕 美国 最 伟大 的 成 就 也 可 能 因为 一 个 像 O 型 环 那 样 平凡 无 
AH ET ADS... 
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总 ， 该 公司 是 固态 火箭 发 动机 的 承包 供应 商 。 在 那 次 灾难 性 发 射 的 前 
夜 ， 鳃 勃 . 隆 德 和 其 他 几 个 人 提出 建议 ， 反 对 在 寒冷 的 气候 条 件 下 发 
射 “挑战 者 号 ”( 该 建议 随后 被 撤销 ) © 


“我 们 担心 气温 会 比 去 年 一 月 份 还 要 低 ， 去 年 一 月 份 的 温度 是 50 华 
RE (10°C) 还 是 53 华 氏 度 (12°C) ， 我 们 发 现 .……O 型 环 有 一 定 程 
度 的 磨损 ..……. 而 这 并 不 是 我 们 最 担心 的 事 ， 融 像 我 们 之 前 说 过 的 ， 如 
果 气 温 低 于 当时 的 51 华 氏 度 (11"C) 或 者 53 华 氏 度 ， 不 管 具体 几 度 ， 
我 们 不 知道 事情 能 顺利 开展 到 哪 一 步 。 我 们 担心 的 就 是 这 种 未 知 状 
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换 句 话说 他们 手头 的 数据 不 够 。 没 人 知道 在 比 之 前 任何 一 次 
发 射 气温 低 上 15 华 氏 度 的 环境 中 ，O 型 环 会 出 现 什么 问题 o S 


然而 ， 缺 少 低 于 53 华 氏 度 的 数据 只 是 问 题 之 一 。 
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Andrew J. Dunar and Stephen P. Waring, Power to Explore— History of Marshall Space 
Flight Center 1960— 1990 (Washington, D.C.: National Aeronautics and Space Administration, 
NASA History Office, Office of Policy and Plans 1990), 339. 
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Report of the Presidential Commission on the Space Shuttle Challenger Accident (aka the 
Rogers Commission Report) (1986), chapter IV. 


e 


Rogers Commission Report, chapter IV. 


B 


According to the Rogers Commission Report, chapter IV, the temperature near the joint 
that failed was estimated to be 28 degrees Fahrenheit, +/- 5 degrees.The temperature on the 
opposite side of the booster— which faced the sun— was estimated to be 50 degrees 
Fahrenheit. 


g 


There were at least three potential issues with low temperatures. The first is O-ring 
resiliency. The second, as explained by the Rogers Commission Report (chapter IV), was “the 
potential for ice in the joints.” Finally, as the report noted, O-ring hardness is also a function 


of temperature and may have been another factor in joint performance." 


6. Kevin Smokler, *The Day That Gen X Grew Up," Baltimore Sun, February 3,2006. 


8. 


According to the Rogers Commission, “the Thiokol Management reversed its position 
and recommended the launch of 51-L, at the urging of Marshall and contrary to the views of 
its engineers in order to accommodate a major customer" (Rogers Commission Report, chapter 
V). 


Bob Lund, quoted in the Rogers Commission Report, chapter V. 


Various tests were actually conducted as low as 30 degrees. However, these experiments 
were conducted on test devices, and did not always include the putty that was part of the 


sealing system. 


理解 样本 选择 


你 在 给 手头 的 数据 样本 做 统计 分 析 的 时 候 ， 会 引出 一 个 在 统计 学 
中 称 为 “样本 选择 ”的 问题 。 分 析 的 数据 数量 比 数据 总 量 少 并 不 一 定 会 
产生 问题 ， 但 可 能 导致 得 出 错误 的 结论 ， 这 一 切取 决 于 你 要 回答 的 问 
题 是 什么 。 在 “挑战 者 号 ”这 个 例子 中 ， 数 据 被 局 限于 失败 这 一 块 ， 但 
征 失 败 的 可 能 性 恰恰 正定 人 们 所 关心 的 问题 ， 他 们 并 没有 对 没有 出 现 
问题 的 样本 进行 研究 。 


负责 该 项 目的 团队 清楚 他 们 没有 53 华 氏 度 以 下 的 数据 ， 于 是 决定 
在 不 考虑 气温 的 前 提 下 对 0 型 环 失灵 的 每 一 次 情况 展开 人 研究。 科学 家 
和 工程 学 家 们 根据 数据 得 出 的 结论 并 没有 错 。 但 是 ， 正 如 你 所 看 到 
的 ， 问 题 出 在 他 们 并 没有 根据 目 己 想 要 回答 的 问题 选择 正确 的 数据 进 
行 研究 。 在 当时 情况 下 ， 他 们 应 当 对 有 关 0 型 环 运作 状态 的 所 有 数据 
进行 观察 ， 而 不 应 把 研究 对 象 局 限于 O 型 环 产 生 失 灵 迹 象 的 数据 。 


空难 发 生 的 前 夜 一 一 工程 师 们 试图 说 服 莫 顿 聚 硫 橡 膀 公 司 和 天国 
国家 航空 航天 局 (NASA) 的 管理 人 员 取 消 发 射 一 -有 人 指出 航天 飞 
机 在 75 华 氏 度 环境 下 发 射 时 O 型 环 有 失灵 的 迹象 。 


确实 一 一 75 华 氏 度 环境 下 出 现 了 问题 。70 华 氏 度 环境 下 也 出 现 了 
问题 。63 华 氏 度 环境 下 也 同样 出 现 了 问题 。 事 实 上 ， 有 证 据 表 明 O 型 
环 在 7 次 互 不 相关 的 发 射 任务 中 发 生 了 热 损 坏 。 如 有 宁 观 察 一 下 这 几 次 发 
味 时 的 气温 ， 你 会 发 现 很 难 找 出 一 个 规律 。 通 过 观察 这 些 数据 ， 你 会 
轻易 地 相信 温度 并 不 影响 0 型 环 的 运作 状态 。( 罗 《委员 会 报告 》 指 
出 : “通过 比较 ，O 型 环 ‘ 失 灵 ’ 这 一 情况 在 连接 处 温度 处 于 53 华 氏 度 到 
75 华 氏 度 区 间 内 并 没有 呈 不 规则 分 布 。” 


问题 在 于 这 种 比较 方法 仅 研 究 了 24 次 航天 飞机 发 射 任务 中 7 次 的 数 
据 。 人 们 通过 仅 关 注 O 型 环 出 现 问 题 的 发 射 任务 截 短 了 数据 组 一 ix 
么 说 听 起 来 很 委婉 ， 但 言 下 之 意 束 是 他 们 并 没有 对 所 有 数据 展开 研 
究 。 这 个 数据 分 析 错 误 将 导致 严重 的 后 果 。 


因为 工程 师 们 仅仅 研究 “发 射 失败 的 情况 一 一 如果 你 看 一 下 先前 7 
次 存在 问题 的 发 射 任务 和 17 次 没有 问题 的 发 射 任务 ， 研 究 一 下 当时 的 
气温 ， 你 就 会 发 现 其 中 存在 明显 的 关联 ， 这 一 关联 十 分 重要 ， 但 他 们 
却 忽 略 了 这 一 情况 *。 安 .E. 滕 布 伦 塞 尔 和 马克 斯 :H. 贝 泽 曼 在 给 《魔鬼 
经 济 学 》( 电 写 的 一 篇 博客 文章 中 提出 了 上 壕 观点 。( 乌 


你 一 旦 看 了 所 有 的 数据 一 一 把 没有 发 生 事故 的 发 射 任务 也 包含 在 
你 目 己 整 能 看 出 区 别 。 


气温 在 65 华 氏 度 (18°C) 以 上 ，20 次 发 射 任务 中 只 有 3 次 出 了 事 
故 。 


气温 在 65 华 氏 度 以 下 ，4 次 发 射 任务 均 出 了 事故 。 


内 


这 是 一 个 依赖 数据 一 一 虽然 出 发 点 极 好 一 导致 灾难 性 后 果 的 典 
型 例子 G 


32-1 0 型 环 发 生 热 损 坏 的 发 射 任 务 


事故 数 


连接 处 在 安装 时 的 温度 ， 单 位 : 华氏 度 


表 2-1 标 出 了 O 型 环 发 生 热 损坏 BORIA ETH > dn > tPA 
等 状况 ) 的 发 射 任务 。 注 意 该 表 仅 标 出 了 0 型 环 失灵 的 发 射 任务 ， 并 
且 以 温度 记录 其 分 布 情况 。 


表 2-2 所 有 发 射 任务 


连接 处 温度 测量 结果 ， 单 位 : 华氏 度 


表 2-2 标 出 了 所 有 发 射 任务 一 一 O 型 环 失 灵 和 没有 失灵 都 包含 在 
内 。 同 样 ， 以 温度 记录 其 分 布 情况 。 


所 幸 你 自己 所 选择 的 数据 样本 可 能 永远 不 会 陷入 最 终 导 致 7 人 丈 
命 、 重 建 费 高 达 17 亿 美元 的 航天 飞机 毁 于 一 旦 这 样 的 处 境 。( 污 但 不 论 
你 在 家 读 报纸 还 是 在 公司 写 报告 ， 每 天 也 都 会 碰 到 与 之 类 似 的 数据 问 
题 。 我 们 会 在 接 下 来 的 几 页 中 解释 样本 是 什么 ， 并 向 你 展示 如 何 避 免 


得 出 错误 的 结论 。 


1. You should also note that, while Figure 2-1 displays the number of incidents,it does not 
accurately convey the amount of thermal distress. According to the Rogers Commission 
Report, the worst *blow-by" (a symptom of distress) occurred at 53 degrees. Looking at this 


chart, you can only see how many incidents there were— not how serious each one was. 
2. 《魔鬼 经 济 学 》 简 体 中 文 版 已 由 中 信 出 版 社 出 版 。 编者 注 


3. Ann E. Tenbrunsel and Max H. Bazerman, “Launching Into Unethical Behavior: Lessons 


from the Challenger Disaster" Freakonomics blog, June 1, 2011,accessed April 25, 2015, 
http://freakonomics.com/2011/06/01/ launching- into- unethical- behavior- lessons- from- the- 
challenger- disaster/. 


4. To be fair, looking at the sample incorrectly was just one of the issues cited by the Rogers 
Commission Report, which also cited *a faulty design unacceptably sensitive to a number of 
factors" (chapter IV). The putty used to help seal gaps was also the subject of much debate, 
given that NASA changed suppliers (the original contractor used asbestos, and later stopped 
making the putty). Leak checks— meant to ensure the integrity of the putty and O-ring seal— 
also had the unfortunate effect of creating “dangerous gaps in the putty,” according to Power 
to Explore. Many articles and books have explored the various reasons for the tragedy, and it is 
certainly not our intention to state (or even imply) that the sampling error alone caused the 
disaster. We only use it to illustrate our point. Communication (or lack thereof) was also a key 
component. In one particularly damning section of chapter V of the Rogers Commission 
Report, the commission noted that the decision makers *were unaware of the recent history of 
problems concerning the O-rings and the joint and were unaware of the initial written 
recommendation of the contractor advising against the launch at temperatures below 53 
degrees Fahrenheit and the continuing opposition of the engineers at Thiokol after the 
management reversed its position . . . If the decisionmakers had known all of the facts, it is 
highly unlikely that they would have decided to launch 51-L [the name for the flight] on 
January 28, 1986. 


5. 


“Frequently Asked Questions About the Space Shuttle and International Space Station,” 
Kennedy Space Center website, accessed April 25, 2015, 
http://www.nasa.gov/centers/kennedy/about/information/shuttle_fag.html#1. 


我 们 为 何 需 要 抽样 ? 


假设 你 有 一 盒 蜡 笔 ， 共 100 文 。 你 想 要 知道 其 中 有 儿 文 是 监 色 的 。 
在 这 种 情况 下 ， 你 需要 做 100 次 观察 以 收集 所 有 数据 。 观 察 即 一 个 简单 
地 看 一 眼 一 个 单位 的 动作 。 


针对 一 盒 100 文 蜡笔 ， 对 每 一 文 蜡笔 进行 观测 以 研究 这 一 数据 总 体 
征 行 得 通 的 。 对 数据 总 体 进 行 观察 是 有 好 处 的 ， 因 为 你 无 须 对 余下 的 
数据 做 假设 。 


但 如 果 你 一 年 来 人 际 关 系 处 得 出 奇 地 好 ， 在 生日 的 时 候 收 到 了 一 
SEF, BMT 1000 He, RIAA? 意味 着 现在 你 的 数据 
总 体 为 100 万 。 


谁 久 有 时 间 去 观察 100 万 支 蜡 笔 呢 ? 


HE, WAA-TARA HAE: 使 用 一 点 数据 分 析 手 段 ， 你 依 
然 可 以 估算 出 其 中 有 和 多少 支 蓝 色 蜡笔 。 怎 么 估算 ? 你 可 以 从 数据 总 体 
中 抽出 一 个 样本 。 样 本 即 总 体 中 的 一 部 分 (并 非 全 部 ) 。 一 旦 你 得 到 
了 样本 ， 你 就 可 以 对 总 体 做 推断 。 (但 就 如 你 先前 所 见 ， 在 “挑战 者 
号 ”航天 飞机 的 例子 中 ， 如 何 选 择 样本 会 对 数据 分 析 产 生 巨 大 的 影 
Wf] o) 


在 数据 分 析 中 ， 使 用 样本 对 总 体 进 行 佑 算是 一 个 利用 手段 。 但 你 
必须 非常 小 心 ， 因 为 哪怕 很 小 的 错误 都 会 迅速 放大 ， 因 为 对 数据 样本 
进行 观测 束 相 当 于 对 许多 其 他 数据 进行 了 观测 。 如 末 你 想 保证 目 己 的 
推 听 正确 无 误 ， 束 还 需 考虑 其 他 许多 因素 。 最 终 你 还 要 知道 目 己 所 选 


择 的 样本 对 数据 总 体 来 说 有 没有 统计 学 上 的 意义 ， 这 一 点 我 们 会 在 本 
书 第 五 章 中 讨论 。 


如 有 果 是 这 样 ， 结 有 果 会 如 何 ? 


研究 数据 ， 得 出 统计 结论 的 过 程 称 为 推断 。 在 所 有 的 统计 分 析 
中 ， 如 果 你 想 权 推断 出 结果 ， 婚 必须 保证 目 己 拥有 针对 所 要 解决 问题 
的 正确 数据 。 在 本 章 中 ， 我 们 会 探究 两 类 比较 重要 的 抽样 问题 ， 鉴 于 
大 家 对 接收 数据 已 有 所 了 解 ， 我 们 认为 这 两 类 问题 应 当 引起 重视 e © 


第 一 ， 你 需 思 考 目 己 所 研究 或 收集 的 数据 是 否 能 够 代表 基础 数据 
总 体 。 这 一 问题 与 数据 收集 方式 和 收集 什么 样 的 数据 有 关 。 回 到 我 们 
讨论 过 的 蜡笔 的 例子 : 如 有 条 给 蜡笔 痛 盒 的 人 在 盒子 一 侧 放 了 较 多 的 监 
色 晓 笔 一 一 而 那 一 侧 正 是 你 抽样 的 地 方 ， 结 采 会 如 何 ?” 在 这 种 情况 
下 ， 如 采 你 想 要 们 算 盒 于 里 有 多 少 文 蓝 色 蜡笔 ， 你 心中 所 想 的 数字 会 
比 实际 上 多 出 许多 ， 因 为 基础 数据 并 不 能 代表 整 盒 蜡笔 。 你 所 研究 的 
样本 疝 蓝 色 晤 笔 偏 位 。 


第 二 ， 你 需 考虑 针对 所 收集 的 数据 ， 分 析 的 对 象 是 什么 一 一 你 是 
在 分 析 所 有 数据 ， 还 是 分 析 一 部 分 数据 ? 例如 ,假设 你 拥有 盒 中 所 有 
站 笔 的 数据 ， 你 想 要 知道 多 少量 笔 是 蓝 色 的 。 但 在 分 析 过 程 中 ， 你 仅 
将 标签 上 写 厦 “ 监 色 ”的 虹 笔 确定 为 监 色 的 。 在 这 种 情况 下 ， 你 只 研究 
了 数据 中 的 一 部 分 (蜡笔 标签 名 ) ， 这 可 能 会 导致 你 对 蓝 色 蜡笔 数据 
总 体 的 估计 和 一 个 观察 过 每 一 文 妊 笔 的 颜色 ， 并 把 水 绿色 、 青 绿色 ` 
丹 末 色 蜡 笔 也 观察 了 一 过 的 人 所 得 出 的 结论 大 不 相同 。 


你 必须 时 常 问 目 己 ， 有 是 否 能 够 准确 地 将 研究 发 现 从 样本 推广 到 数 
据 总 体 ? 这 种 推广 的 可 能 性 称 作 外 延 有 效 性 ， 即 把 从 样品 中 得 出 的 结 
论 加 以 推广 ， 从 而 得 出 对 整个 数据 总 体 有 意义 的 结论 。 


本 章 的 例子 着 重 指出 了 数据 抽样 的 多 种 方式 一 一 这 些 方 式 中 ， 有 
些 正 确 ， 有 些 错误 。 为 了 符合 这 一 章节 的 主 下 ， 我 们 在 此 假定 所 有 和 
数据 抽样 相关 的 错误 ， 都 是 不 经 意 、 都 不 是 故意 产生 的 。 这 样 的 分 类 
十 分 重要 ， 因 为 有 时 候 人 们 会 出 于 特定 的 目的 对 数据 进行 抽样 ， 以 得 
出 他 们 想 要 的 结果 ， 即 有 选择 性 地 对 数据 进行 抽样 一 一 我 们 会 在 第 七 


章 详 细 讨论 这 个 概念 。 


正如 你 所 看 到 的 ， 在 分 析 小 数据 的 时 候 ， 抽 样 是 基础 。 如 果 抽 样 
出 了 问题 ， 在 解读 数据 的 时 候 不 可 避免 地 会 出 错 。 有 的 数据 专家 穷尽 
整个 职业 生涯 ， 束 为 了 让 抽样 能 够 准确 并 具有 代表 性 ， 从 而 为 后 续 的 
数据 分 析 英 定 坚 实 的 基础 。 这 些 数据 专家 映 价 十 分 高 ， 因 为 离开 了 他 
们 ， 一 切 痢 将 朋 塌 瓦解 。 


1. There are many issues with sampling— these are only two of them. We explore a few 
more concerns— including sampling error— in chapter 5. That said, this book is meant to be 
educational and entertaining, and shouldn't be taken as a comprehensive treatise on every 


issue that can arise with sampling (or any other topic). 


如 果 你 研究 人 类 行为 ， 那 就 必须 抽样 。 因 为 我 们 的 星球 上 有 70 亿 
人 ， 绝 无 可 能 将 其 全 部 作为 样本 来 进行 观察 。 


所 以 ， 如 何 来 选择 样本 呢 ? 


最 为 理想 化 的 情况 是 你 有 一 个 足够 庞大 而 且 多 样 化 的 人 群 ， 这 些 
人 能 够 非常 准确 地 代表 整个 数据 总 体 。 不 笠 的 是 ， 从 心理 学 角度 讲 ， 
这 种 状态 是 达 不 到 的 ， 甚 至 连接 近 这 种 状态 都 难 。 


某 期 刊 上 有 文章 指出 : “人 类 行为 学 家 总 是 循环 往复 地 在 世界 顶级 
期 刊 上 发 表 有 关 人 类 心理 、 行 为 的 概括 性 论断 ， 而 这 些 论断 全 都 是 从 
西方 的 、 教 育 程度 高 的 、 工 业 化 的 、 富 有 的 、 民 主 的 (前 五 个 词 英文 
首 字母 缩写 为 WEIRD， 意 为 怪诞 ) 社会 中 抽样 。" 滞 


但 是 ， 等 等 ， 事 情 貌 似 更 糟 了 。 因 为 很 多 研究 不 仅仅 是 从 那些 “ 怪 
诞 ?的 社会 中 抽样 得 出 的 ， 其 中 有 些 研 究 是 从 最 “怪诞 "的 社会 一 一 类 
抽样 得 出 的 。 


有 研究 人 员 指 出 : “美国 心理 学 研究 有 一 个 惊人 的 特点 ， 即 研究 结 
论 并 非 基 于 涵盖 面 广 、 差 别 性 大 的 人 群 ， 而 是 仅仅 基于 人 类 总 体 的 一 
小 部 分 这 一 小 部 分 人 大 多 生活 在 美国 。* 人 由 


美国 人 口 占 世界 人 口 不 到 5%， 但 在 某 些 研究 中 却 占 了 样本 的 
68% 。“ 世 界 上 其 余 的 959% 人 口 都 被 忽略 了 » CS) 


尽管 美国 人 习惯 站 在 聚光灯 下 ， 但 你 肯定 能 够 明日 为 何在 研究 人 
类 的 时 候 把 其 中 大 部 分 忽视 掉 是 很 有 问题 的 。 尤 其 因为 美国 人 很 难 代 


表 世 界 其 他 地 区 的 人 群 ， 至 少 在 很 多 方面 无 法 代表 。 生 活 在 美国 (LÀ 
及 其 他 WEIRD 国 度 ) 可 能 会 影响 我 们 感受 形象 以 及 处 理 和 金钱 的 关系 
等 方方面面 。 人 时 事实 上 ， 有 一 名 研究 者 指出 ，WEIRD 国 家 的 人 民 可 能 
是 “在 研究 知人 领域 ， 最 不 能 用 来 普遍 化 的 子 人 群 ”。 时 


稍 等 ， 问 题 还 不 止 这 些 。 


在 美国 ， 一 项 研究 表明 绝 大 多 数 心理 学 研究 “在 很 长 时 间 以 来 一 直 
以 大 学 生 为 研究 对 象 尤其 是 以 上 心理 学 课程 的 本 科 生 为 研究 对 
象 。 这 样 的 情况 已 经 持续 了 近 50 年 ”。 


在 某 期 刊 中 ， 有 2/3 的 美国 研究 样本 为 心理 学 本 科学 生 。 


在 某 种 程度 上 ， 使 用 这 样 的 样本 是 有 道理 的 。 心 理学 本 科 生 在 每 
所 大 学 中 都 无 所 事 事 ， 他 们 都 愿意 挣 些 零花 钱 。 因 此 在 很 多 情况 下 ， 
这 样 的 学 生 是 研究 人 员 的 < 上 佳之 选 "。 


除了 上 述 特 点 之 外 ， 心 理学 本 科 生根 本 不 适合 作为 研究 样本 。 因 
为 他 们 的 平均 年 龄 低 于 美国 国民 的 平均 年 龄 。 下 面 举 一 个 例子 说 明 这 
会 带 来 什么 不 同 。 随 机 抽取 一 个 美国 本 科 生 , “他 们 同 西方 国家 以 外 的 
人 相 比 ， 做 研究 样本 的 概率 高 出 4000 倍 ”，( 汪 这 可 不 仅仅 可 以 用 * 怪 
诞 " 来 形容 了 。 这 会 导致 你 研究 的 很 多 心理 学 现象 得 出 错误 结论 。 
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抽样 不 一 定 越 大 就 越 好 


如 果 抽 样 数目 很 大 但 不 正确 ， 这 样 的 抽样 不 一 定 束 能 人 证 得 出 较 
好 的 结果 。 你 可 以 研究 世界 上 任何 一 个 心理 学 本 科 生 的 行为 ， 但 这 并 
不 能 表示 你 束 能 够 以 此 推 而 广 之 得 出 全 人 类 的 行为 模式 。 


拿 美 国 国家 体重 控制 注册 中 心 (NWCR) 做 例子 ， 该 中 心 在 宣传 
单 上 自称 在 美国 境内 开展 了 一 项 针对 长 期 成 功 瘦身 并 维持 的 调查 ， 对 
超过 1 万 人 的 瘦身 数据 展开 追踪 。 但 样本 数 最 “大 ”并 不 表示 该 样本 就 是 
好 的 ， 就 好 像 去 拉 斯 韦 加 斯 最 大 的 自助 餐厅 用 餐 并 不 一 定 让 你 吃 得 健 
康 一 样 。 的 确 ， 你 餐 盘 多 放 点 不 同 的 食物 的 确 能 让 你 吃 到 健康 食品 的 
概率 上 升 ， 但 你 必须 继续 把 数据 挖 得 更 深 一 点 。 如 果 你 挖掘 一 下 美国 
国家 体重 控制 注册 中 心 发 表 的 有 关 减 肥 的 研究 ， 你 会 发 现 其 中 很 多 报 
告 的 数据 中 ， 女 性 比 男性 人 数 多 很 多 。( 沁 这 并 不 值得 惊讶 ， 因 为 在 那 
个 中 心 注册 的 人 员 中 ，80% 为 女性 ， 只 有 209% 为 男性 o C9) 


征 否 这 个 情况 惑 能 让 他 们 的 研究 无 效 ? 并 非 如 此 。 
征 否 这 吏 表 明 他 们 的 抽样 无 效 ? 并 非 如 此 。 


但 这 的 确 能 够 限制 将 其 所 得 出 结论 推广 至 更 大 范围 人 和 群 的 减肥 效 
果 上 。 尺 管 人 数 很 多 ， 但 这 些 个 体 依然 属于 特定 的 群体 一 一 参与 了 减 
肥 ， 收 到 了 减肥 效果 ， 并 且 目 愿 参与 这 项 研究 ， 而 且 比 较 个 性 化 。 这 
仅仅 是 一 个 例子 ， 说 明 为 什么 你 不 能 根据 数据 想当然 地 做 出 结论 ， 无 
论 抽样 数目 有 多 大 都 是 一 样 。 


1. *Research Findings," NWCR, accessed March 31, 2015, 
http://nwcr.ws/Research/published%20research.htm. 


“NWCR Facts," NWCR, accessed March 31, 2015, http://nwcr.ws/Research/default.htm. 


系 上 安全 带 
《洛杉矶 时 报 》 的 一 则 头条 新 闻 可 能 会 让 所 有 子女 尚 幼 的 家 长 售 
下 手边 的 事 ， 再 多 看 一眼。 


“儿童 高 脚 使 致 伤 率 在 7 年 内 上 升 了 22%;， 如 何 才能 保证 自家 孩子 
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乍 看 之 下 这 个 数据 十 分 可 信 ， 毕 竞 《 洛 杉 矶 时 报 》 是 全 国 最 大 、 
声誉 最 好 的 报纸 之 一 。 这 篇 文章 是 基于 一 篇 发 表 在 经 过 同行 评议 的 期 
刊 《临床 儿科 》 的 研究 之 上 。 文 章 的 第 一 作者 是 国家 儿童 医院 研究 学 
院 伤 害 研究 政策 中 心 主任 。 该 医院 在 美国 国立 卫生 研究 院 资助 的 医院 
"Ez Bt » 69 


此 项 研究 的 数据 来 源 于 美国 “全 国电 子 伤害 监督 系 
Hi" (NEISS) ， 该 系统 从 医院 收集 病人 数据 。 上 面 的 样本 集 没有 从 儿 
科 医 生 那 里 收集 数据 ， 没 有 从 家 长 那里 收集 数据 ， 而 是 仅仅 从 医院 收 
集 数据 “而且 是 从 一 部 分 医院 收集 数据 。( 沁 | 换 和 句 话 说 ， 得 出 的 结论 
仅仅 反映 了 一 部 分 和 儿童 高 脚 合 有 关联 的 伤害 情况 。 


在 这 草 的 前 半 段 ， 也 整 是 “挑战 者 号 ”航天 飞机 的 部 分 ， 我 们 看 到 
了 专家 们 是 如 何 仅仅 研究 所 掌握 的 一 部 分 数据 的 情况 的 。 在 这 个 案例 
中 ， 专 家 似乎 研究 了 NEISS 数 据 库 中 的 所 有 数据 。 但 问题 在 于 尽管 研 
完了 所 掌握 的 所 有 数据 〈 去 医院 就 诊 的 受伤 情况 ) ， 他 们 依然 没有 掌 
握 所 有 数据 《所 有 的 受伤 情况 ) 。 在 这 种 情况 下 ， 研 究 人 员 没 有 掌握 
所 有 的 数据 ， 很 难 回答 人 们 关心 的 核心 问题 。 


AEM, WER LEBER, NEISSIUSCE UP 
个 合理 来 源 ， 而 且 不 论 是 文章 的 作者 还 是 《洛杉矶 时 报 》 的 记者 ， 
都 很 清楚 数据 的 来 源 。 但 这 并 不 能 改变 我 们 作为 成 熟 的 数据 接收 者 取 
得 信息 的 方式 。 


例如 ， 假 设 在 研究 过 程 中 ， 因 为 高 脚 赏 致 念 的 儿童 数量 总 体 在 减 
少 ， 但 受伤 后 去 医院 就 医 的 儿童 人 数 在 上 升 ， 结 采 会 怎么 样 ? 在 这 种 
情况 下 ， 受 伤 儿童 的 总 数 在 减少 ， 但 家 长 决定 市 儿童 去 医院 的 比例 在 
增加 。 为 什么 呢 ? 也 许 由 于 出 现 了 一 则 广 为 流 传 的 靳 闻 ， 越 来 越 多 家 
长 担心 孩子 脑 震 荡 。 也 许 出 现 了 一 项 新 的 研究 ， 越 来 越 多 儿童 医生 建 
议 家 长 融 孩 子 去 医院 。 也 许 的 确 受伤 人 数 在 下 降 ， 但 受伤 程度 比 以 前 
更 为 严重 。 如 有 果 你 不 提出 这 些 问 题 ， 你 将 永远 不 知道 上 面 新 闻 的 说 法 
有 多 少 可 信和 度 ， 也 不 会 知道 如 何 正 确 地 解读 它 。 


再 说 得 清楚 一 点 ， 我 们 不 古 说 不 想 让 孩子 更 安全 。 我 们 都 会 体 护 
for (甚至 过 分 保护 ) 一 一 我 们 会 在 买 而 式 旅 行车 的 时 候 事先 研究 各 
类 汽车 的 碰撞 试验 排名 。( 因 我 们 在 这 里 只 是 说 你 应 该 知道 数据 的 来 
源 。 


如 果 你 对 孩子 负责 的 话 ， 记 得 在 孩子 坐 高 脚 合 的 时 候 为 他 们 系 上 
安全 带 。 因 为 绝 大 多 数 受伤 事件 是 在 孩子 试图 站 立 或 从 高 脚 碍 上 疏 下 
来 的 时 候 发 生 的 9 


1. Deborah Netburn, *High Chair Injuries up 2296 in 7 Years; How to Keep Your Baby 
Safe," Los Angeles Times, December 9, 2013. 


2: "There Is Something Remarkable Happening Here," Nationwide Children's website, 
accessed April 25, 2015, http://www.nationwidechildrens.org/ hospital- overview. 


3, The data was only from some hospitals. According to its website (“National Electronic 
Injury Surveillance System (NEISS),” United States Consumer Product Safety Commission 
website, accessed April 25, 2015, http://www.cpsc.gov/en/ Research-- Statistics/ NEISS- 
Injury- Data/), NEISS offers “a national probability sample of hospitals in the U.S. and its 
territories” for injuries related to consumer products. The total number of injuries is then 


estimated, based on this sample of approximately 100 hospitals (the sample size changed 
throughout the years). Is that a large enough sample size? Is it a representative sample?While 
we have no reason to believe that the sampling was misguided (and we'd need another chapter 
to fully explore it), we do want to point out that this is yet another instance in which sampling 


has the potential to significantly impact the everydata in our lives. 


Check out SaferCar.gov. Just keep in mind that some rankings are relative to all other 
vehicles— while some results *can only be compared to other vehicles in the same class and 
whose weight is plus or minus 250 pounds of the vehicle being rated," 
http://www.safercar.gov/Vehicle*Shoppers/5-Star- FAQ£one. In other words, a three- star- 


rated SUV could theoretically be safer than a five star compact car. 


Rachel M. Kurinsky, Lynne M. Rochette, and Gary A. Smith, "Pediatric Injuries 
Associated with High Chairs and Chairs in the United States, 2003- 2010,”Clinical Pediatrics 
53, no. 4 (2014). 


我 们 是 第 1 名 ， 也 是 第 58 名 ! 


根据 《普林斯顿 评论 》 上 派对 学 校 (Party School) 排名 ， 雪 城 大 
学 位 列 第 1 名 。( 轩 ) 


根据 《美国 新 闻 与 世界 报道 》 上 国立 大 学 排名 ， 雪 城 大 学 位 列 第 
58% » (=) 


尽管 两 个 排名 都 针对 同一 所 学 校 ， 但 是 从 完全 不 同 的 数据 中 抽 
样 ， 提 出 不 同 的 问题 。 这 完全 征 个 仁者 见 仁 、 智 者 见 入 的 问题 。《 类 
国 新 闻 与 世界 报道 》 看 的 是 毕业 率 、 院 系 实力 以 及 其 他 的 标准 ; 派对 
大 学 排名 是 基于 有 关 人 饮酒 、 毒 品 、 大 学 生 联 谊 会 / 女 学生 联 谊 会 生活 以 
及 与 此 类 似 因 素 的 学 生 调 查 问卷 结果 得 出 的 。 


当然 ， 我 们 能 够 在 这 一 章节 中 不 厌 其 烦 地 讲 为 什么 我 们 不 能 比较 
这 些 排 名 (方法 不 同等 等 ) 。 你 肯定 会 问 不 同 的 排名 方法 是 如 何 得 出 


结论 的 。 


RXRA: 你 可 以 基于 抽样 的 数据 和 提出 的 问题 ， 对 同一 个 
人 、 同 一 个 地 点 、 同 一 个 事物 做 完全 不 同 的 研究 。 


1. “Syracuse Named Top Party School," Syracuse University website, accessed July 20, 
2015, 
http://www.syracuse.com/news/index.ssf/2014/08/syracuse named top party school princeto 


n review.html. 


2. *Syracuse University," U.S. News and World Report website, accessed March 16, 2015, 
http://colleges.usnews.rankingsandreviews.com/ best- colleges/ syracuse- university- 2882. 


ARE ATA 


上 周 你 号 了 多 少 次 垃圾 食品 ? 
上 个 月 你 看 了 多 久 电 视 ? 
你 开车 时 到 压 开 多 快 ? 


当 你 询问 人 们 有 关 他 们 自身 的 问题 时 ， 会 面 对 得 到 错误 信息 的 风 
险 。 人 们 不 总 是 诚实 的 。 我 们 有 各 种 偏见 。 我 们 的 记忆 也 远 称 不 上 完 
美 。 凭 借 着 自 陈 式 数据 ， 你 会 假定 十 之 八 九 的 事 适用 于 所 有 人 (事实 
ERE) 。 你 会 觉得 人 们 能 够 客观 理解 自己 的 行为 (事实 并 非 如 
此 ) 。 ( 想 要 对 自 陈 式 数据 的 风险 有 一 个 更 为 深入 的 了 解 ， 请 在 英国 
科学 基金 会 Brainwaves 的 博客 上 阅读 《 自 陈 的 危险 》 一 文 。) 69 


潜在 的 不 确定 性 所 导致 的 结果 便 是 自 陈 式 数据 可 能 并 不 可 靠 。 
《安全 研究 杂志 》 上 的 一 项 研究 显示 ， 大 多 数 人 认为 自己 开车 水 平 比 
普通 人 高 。( 归 另 一 项 研究 报告 显示 ， 人 们 会 把 自己 的 身高 报 得 偏 高 ， 
把 自己 的 体重 报 得 偏 低 。 爸 当 你 让 人 们 观察 自己 的 时 候 ， 这 些 情况 都 
可 能 发 生 。 


有 了 时候 ， 目 陈 式 数据 是 唯一 可 以 获得 的 数据 。 有 时 候 ， 目 陈 式 数 
据 仅仅 是 更 加 容易 获得 。 并 不 能 说 目 陈 式 数 据 就 古 不 好 的 ， 因 为 这 音 
分 取决 于 数据 的 育 景 ， 部 分 取决 于 数据 的 收集 方式 ， 部 分 取决 于 问题 
的 询问 方式 。 如 采 你 想 做 一 个 成 熟 的 数据 接收 者 ， 目 陈 式 数据 只 有 是 你 
需要 留心 的 一 个 方面 而 已 。 


1. Rob Hoskin, *The Dangers of Self- Report," British Science Association Brainwaves 
website, March 3, 2012, accessed September 1, 2015, http://www.science brainwaves.com/ 


the- dangers-of- self- report/. 


2; Allan F. Williams, *Views of U.S. Drivers About Driving Safety," Journal of Safety 
Research 34, no. 5 (2003): 491— 494, doi:10.1016/j.jsr.2003.05.002. 


3. S. Connor Gorber, M. Tremblay, D. Moher, and B. Gorber, *A Comparison of Direct vs. 
Self- Report Measures for Assessing Height, Weight and Body Mass Index: A Systematic 
Review,” Obesity Reviews 8, no. 4 (July 2007): 307— 
326,http://www.ncbi.nIm.nih.gov/pubmed/17578381. 


选举 总 统 与 人 口 普 查 


美国 的 下 一 任 总 统 可 能 会 把 胜利 归功 于 抽样 。 


你 知道 ， 总 统 必须 获得 选举 团 的 大 多 数 选 票 才能 获胜 。 这 些 选 票 
一 部 分 基于 美国 人 口 普查 ，( 轩 而 美国 人 口 普 查 依赖 抽样 来 获得 准确 的 


nk 


yee 
A 


因为 根据 美国 宪法 ， 每 10 年 要 对 美国 境内 所 有 人 口 做 一 次 普查 。 
© 


观察 从 美国 东海 岸 到 西海 岸 的 全 部 人 口 几乎 是 不 可 能 的 。 人 口 普 
查 局 在 官网 上 写 道 : “人口 普查 过 程 中 ， 有 一 些 人 口 没 有 被 计算 进 
去 。* 玖 《时 代 》 杂 志 报 道 ; “1990 年 人 口 普 查 遗 漏 了 大 约 800 万 人 
”其 中 大 多 数 为 移民 和 城市 少数 族群 ， 最 终 人 口 普查 局 重复 统计 了 
400 万 美国 白人 » 9) 


为 什么 这 很 重要 ? 除 选 举 外 ， 联 邦 政府 按照 人 口 普 查 数据 分 配偶 
金 、 文 持 社 区 。 一 个 地 区 人 越 多 ， 得 到 的 支持 就 越 多 。 


根据 女 参议 员 洛 苹 塔 :桑切斯 的 说 法 ， 阿 纳 海 姆 市 在 1990 年 人 口 普 
查 的 时 候 ， 少 计算 了 7000 多 人 ， 损 失 了 150 万 美元 联邦 资金 。 这 笔 钱 能 
AL Ba AREA TE ACA 2 — 或 者 说 能 够 让 任何 城市 面貌 大 变 。“ 这 笔 钱 
能 够 让 我 们 的 街道 更 安全 ， 我 们 能 够 为 无 家 可 归 人 员 建 造 房屋 ， 我 们 
能 够 给 失业 者 做 培训 o 5 


跟 这 一 章节 其 他 例子 不 同 ， 这 里 讲 的 不 是 错误 抽样 ， 不 是 错误 解 
读数 据 ， 而 是 说 明 抽 样 的 影响 (这 影响 常常 为 人 所 忽略 ) 。 有 人 能 够 


因为 数据 抽样 坐 上 总 统 的 至 座 一 一 街道 会 由 于 抽样 而 导致 巡逻 警察 数 
量 减少 ， 我 们 认为 这 是 你 必须 知道 的 事 。 


1. 


Each state gets a certain number of votes in the Electoral College, based in part on the 
number of seats it has in the U.S. House of Representatives. These seats are allocated based on 
the results of the U.S. Census. For example, after the 2010 census, 8 states gained members 
and 10 states had fewer members. 


“Decennial Census of Population and Housing,” United States Census Bureau website, 
accessed March 9, 2015, https:/www.census.gov/ programs- surveys/ decennial- 
census/about.html. 


“What Is the 1990 Undercount?," United States Census Bureau website,accessed March 
9, 2015, https://www.census.gov/dmd/www/techdoc1.html. 


Amy Sullivan, *Why the 2010 Census Stirs Up Partisan Politics," Time magazine, 
February 15, 2009. On a related note, to make up for the people who aren't counted (or are 
counted more than once), the U.S. Census Bureau conducts a post-enumeration survey. This 
survey samples households, then compares that data with the original census data. The Census 
Bureau uses this sample data to develop adjusted population counts. But not everybody wants 
an adjustment—especially if it's going to increase the number of people who might vote 
against you in the next election. As the Time magazine article noted, “In very general terms, 
Republicans would prefer to err on the side of undercounting and Democrats would prefer to 
err on the side of overcounting." 


Congressional Record, H1602, March 24, 1999, http://www.gpo.gov/fdsys/pkg/CREC- 
1999-03-24/pdf/ CREC- 1999-03-24- pt1- PgH1602.pdf. 


取 其 精华 ， 去 其 糟粕 


想 一 下 最 近 全 美 掀起 的 去 柬 质 狂潮 。 新 闻 头 条 都 在 讲 最 近 不 吃 合 
忒 质 的 食品 的 钦 食 狂 漳 。 获 质 是 一 种 给 予 面 团 韧劲 的 蛋 日 质 。 但 在 类 
El, RAS OAR NZ ai Ban? 


根据 调研 公司 NPD 团 队 的 一 次 市 场 调研 结果 ， 有 超过 29% 的 美国 
人 尝试 不 吃 含 欧 质 食品 。 人 所 加 上 最 近 热火 朝天 的 去 卖 质 运动 影响 ， 去 
志 质 食品 的 潜在 市 场 估计 会 超过 4400 万 人 。 鸽 ) (聪明 的 读者 可 能 发 现 
全 美 29% 的 人 口 要 远 远 大 于 4400 万 ， 这 种 不 同 很 可 能 是 由 于 不 同 的 收 
集 数据 方法 导致 的 “还 不 算 那 些 试 着 不 吃 含 顽 质 食品 和 真 的 去 买 不 
SERERA o) 


现在 我 们 来 把 上 面 的 数据 和 患 有 乳 糜 泻 的 人 数 做 比较 。 所 谓 乳 麻 
泻 是 一 种 和 小 肠 无 法 吸收 麦 获 相关 的 潜在 疾病 。 根 据 美国 国家 乳 糜 演 
防治 基金 会 的 数据 ， 每 133 个 人 中 有 1 人 和 患 有 此 疾病 一 全 美的 人 数 大 
约 为 2400 万 ， 不 到 总 人 口 的 1% 。 舍 ) 


这 个 例子 中 ， 对 全 国人 口 展开 研究 和 对 人 口中 与 此 事 相关 的 子 集 
( 患 有 乳 麻 海 或 对 麦 苏 过 敏 的 人 群 》 所 受 的 潜在 影响 展开 研究 ， 其 结 
果 大 不 相同 。《 替 芬 顿 邮 报 》 的 戴 维 . 卡 效 博 士 解释 道 ， 有 些 人 不 吃 含 
志 质 食品 会 感觉 舒服 一 点 ， 还 有 一 小 部 分 人 吃 不 吃 含 款 质 食品 “可 能 是 
生死 估 关 的 大 事 ”。* 对 于 除 这 些 人 之 外 的 人 来 说 ， 不 吃 含 获 质 食品 充 
HER ERM ME eS 
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基于 抽样 的 人 数 以 及 提问 的 标准 ， 你 可 以 对 同一 问题 («26 2D AA 
AK Eum? ") 得 到 两 个 截然 不 同 的 答案 。 如 采 你 问 全 国 所 有 人 中 有 多 


少 人 试 着 不 吃 含 砍 质 食品 ， 管 案 是 29%。 如 果 你 咨询 乳 麻 演 防治 团体 
全 国 多 少 病 人 需要 吃 不 含 库 质 的 食品 ， 你 得 到 的 管 案 是 不 足 1%。 与 此 
类 似 ， 通 过 人 研究 全 国人 口 得 出 的 不 含 苏 质 食 品 对 健康 影响 不 大 这 一 结 
AU AM AEH EISMSARASRRA MM RGNARE, He 
征 十 分 危险 的 。 
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1. “Is Gluten- free Eating a Trend Worth Noting?," NPD Group website, accessed April 25, 
2015, https://www.npd.com/perspectives/ food- for- thought/ gluten- free- 2012.html. 


2. Kathie Rowell, “Growing Number of People Choosing Gluten- free Lifestyle,"Shreveport 
Times, April 13, 2015. 


3. “Celiac Disease: Fast Facts,” National Foundation for Celiac Awareness website, 
accessed April 25, 2015, http://www.celiaccentral.org/ celiac- disease/ facts- and- figures/ 


4. David Katz, *Is Gluten- Free Just a Fad?," Huffington Pos website, last updated 
September 24, 2011, accessed April 25, 2015, http://www.huffingtonpost.com david- katz-md/ 
gluten- free- diet b 907027.html. 
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有 时 候 ， 该 有 数据 的 地 方 没有 数据 。 


我 们 来 看 一 下 全 美 第 三 大 学 区 芝加哥 公立 学 校 的 例子 。 这 个 学 区 
发 布 了 大 量 关 于 其 学 生 优异 表现 的 数据 ， 电 也 用 数据 测定 学 生 的 成 长 
情况 ， 作 为 教师 、 校 长 考评 的 一 部 分 ， 也 作为 学 校 可 靠 性 的 一 个 因 
x ® 


但 如 果 你 研究 一 下 2014 年 美国 西北 测评 协会 (NWEA) 学 业 进 展 
测评 (MAP) 的 数据 ， 你 没准 会 发 现 有 一 些 政府 特许 学 校 并 没有 提供 
言 息 。( 污 事 实 上 ， 如 果 你 往 下 拉 看 完 8322 行 Excel 表 格 文件 的 话 ， 你 会 
发 现 有 不 少 没有 提供 信息 的 例子 一 单元 格 是 空白 的 。 


为 什么 ? 有 一 些 情况 下 ， 政 府 特许 学 校 要 么 成 立时 间 较 短 ， 要 人 么 
班级 规模 非常 小 《有 些 学 校 符 合 这 两 个 因素 ) ， 因 此 它们 没有 提供 数 
据 便 讲 得 通 了 。 


但 也 有 其 他 情况 ， 就 是 有 些 政府 特许 学 校 已 经 开 了 5 年 甚至 10 年 之 
久 ， 可 以 推测 数据 肯定 是 有 的 ， 所 以 应 该 只 是 这 些 学 校 没有 上 报 而 
已 。 世 加 哥 一 所 学 校 的 校长 在 《芝加哥 太阳 时 报 》 的 一 篇 短文 中 提 
到 : “有 人 跟 我 说 那些 政府 特许 学 校 并 非 一 定 要 :参与 ,MAP 评 估 .… 
(芝加哥 公立 学 校 ) 允许 一 些 政府 特许 学 校 不 参与 这 项 评估 ， 以 此 维 
持 普 通 公立 学 校 的 可 信 度 。* 洁 ) (公立 学 校 似乎 没有 不 参与 这 项 评估 
的 特权 。) 


Ht 


很 有 可 能 缺失 的 数据 并 没有 对 总 体 比较 结果 产生 巨大 的 影响 。( 轩 
但 当 你 读 到 “芝加哥 公立 学 校 比 政府 特许 学 校 进 步 更 快 ， 在 阅读 教学 方 


面 尤 其 如 此 ”这 样 的 头条 新 闻 时 ， 人 四) 你 便 能 够 看 到 基于 数据 编造 的 故 
事 是 怎么 改变 我 们 的 观念 、 影 响 我 们 的 行为 的 。 


如 果 漠 在 数据 没有 经 过 准确 的 抽样 ， 那 就 仿佛 建 一 座 房 子 ， 却 少 
了 儿 块 混凝土 地 基 。 可 能 这 并 不 要 紧 。 但 如 采 人 缺失 的 地 基 位 于 错误 的 
位 置 一 一 或 缺失 太 多 地 基 ， 那 整 座 房子 将 会 倒塌 。 


1. “School Data,” Chicago Public Schools website, accessed April 25, 2015, 
http://cps.edu/SchoolData/Pages/SchoolData.aspx. 


2. "NWEA Measures of Academic Progress (MAP)," Chicago Public Schools website, 
accessed April 25, 2015, http://cps.edu/SchoolData/Documents/NWEA_MAPFactSheet.pdf. 


3. We downloaded the spreadsheet on March 8, 2015, at http://cps.edu/School 
Data/Pages/SchoolData.aspx. 


4. Troy A. LaRaviere, *Drop CPS' Reform Strategy: CPS Neighborhood School Growth 
Outpaces Charters," Chicago Sun Times, September 1, 2014. 


5. And we're certainly not going to get on a soapbox to talk about the pros and cons of 
charters versus public schools or the wisdom of standardized testing. Although if you want to 
learn more, a guest post on the Brain Pickings blog is an interesting read: Anya Kamenetz, “5 
Reasons Standardized Testing Won't Slow Down,"Penelope Trunk blog, last reviewed March 
5, 2015, http://education.penelope trunk.com/2015/03/05/5- reasons- standardized- testing- 


wont- slow- down/. 


6. Art Golab, Becky Schlikerman, and Lauren FitzPatrick, “CPS Outpaces Charter Schools 
in Improvements, Especially in Reading,” Chicago Sun Times,October 1, 2014. 


缺 了 什么 ? 


有 时 候 ， 你 无 法 保证 数据 抽样 绝对 正确 ， 因 为 这 样 的 数据 根本 不 
存在 。 


奥巴马 总 统 在 决定 发 起 突 效 抓 捕 奥 萨 马 .本 .拉登 的 时 候 说 : “下 这 
个 决断 非常 困难 ， 部 分 原因 是 我 们 并 没有 掌握 确凿 证 据 。 我 们 只 有 间 
接 证 据 证 明 他 会 到 那里 去 o0) 


换 句 话说 ， 他 没有 掌握 全 部 数据 。 


这 种 事 在 政治 、 商 业 、 学 校 、 家 里 都 党 萌发 生 。 你 拥有 一 个 数据 
组 ， 但 你 知道 这 个 数据 组 并 不 完整 。 《这样 常 常 依然 比 你 自己 认为 完 
整 的 数据 组 更 好 ， 虽 然 它 并 不 完整 。) 


因此 ， 下 一 次 你 想 要 做 决定 的 时 候 ， 问 一 下 你 目 己 : 你 和 希望 拥有 
什么 数据 ? 什么 样 的 数据 可 以 让 你 改变 主意 ? 我 们 并 不 是 说 你 要 在 下 
结论 之 前 拥有 所 有 数据 ， 因 为 这 样 的 话 你 束 永 远 不 会 去 赴 初 次 约会 或 
者 壬 试 吃 和 寿司。 但 你 对 先前 未 知 的 东西 知道 得 越 多 ， 你 束 能 过 得 越 
nre 


1. Barack Obama, “The Raid That Killed Bin Laden," 60 Minutes, May 9, 2011. 
http://www.cbsnews.com/news/ president- obama-on- the- raid- that- killed- bin- laden/. 


做 一 个 成 熟 的 数据 抽样 接收 者 


1. 明 日 基于 错误 样本 得 出 结论 将 会 导致 的 后 果 。 样 本 是 否 
够 代表 忌 体 ? 例如 ， 那 些 接受 问卷 调查 的 人 是 谁 ? 所 选 的 数据 是 否 
于 你 想 要 全 守 的 关键 结 有 末 ， 全 守 这 个 “样本 ?十 如 何 影响 分 析 结 果 的 ? 


2. 问 目 己 : 哪些 数据 能 够 最 为 恰当 地 回答 所 提出 的 问题 ? 
比如 , “挑战 者 号 ?调查 小 组 一 度 只 研究 O0 型 环 出 问题 的 发 射 任务 ， 
为 全 完 结 采 显示 这 些 事故 在 一 定 气 温 范 围 内 时 有 发 生 ， 所 以 也 许 这 个 
数据 并 不 是 能 够 解决 问题 的 上 佳之 选 。 如 采 调 查 组 把 注意 力 集中 在 所 
有 发 射 任务 上 ， 他 们 可 能 会 发 现 O 型 环 问题 在 温度 较 低 的 情况 下 更 为 
频 发 。 如 采 要 回答 一 个 有 关 人 类 行为 的 问题 ， 你 想 了 解 哪 些 类 型 的 
A? 或 者 ， 换 个 说 法 ， 受 访 痢 的 答案 是 如 何 影响 特定 分 析 结 果 的 ? 


3. 在 报纸 上 读 到 一 则 新 发 现 或 新 研究 报道 时 ， 问 你 目 己 : 这 个 结 
论 是 研究 了 哪些 数据 得 出 的 ? 受 访 者 十 谁 ， 或 者 这 项 研究 是 基于 何人 


能 
基 


开展 的 ? 当 你 看 到 “在 一 个 非 科 学 的 调查 中 ..….…...” 或 “领先 
的 ” ,等 诸如 此 类 的 话 ， 你 可 以 将 其 视 为 危险 信号 。 


你 可 以 问 自己 5 岁 的 孩子 下 一 任 总 统 是 谁 ， 然 后 将 这 个 “ 非 科 学 的 调 
查 ” 结 果 发 表 。“ 领 完 的 ”这 类 词 听 起 来 不 错 ， 但 很 难 量化 (你 可 能 会 
IR" TTA?) ° 


4. 留 心目 陈 式 数 据 一 — 问 人 们 有 关 他 们 自己 的 职业 ， 看 什么 电 
视 节 目 ， 或 行为 如 何等 问题 与 观察 并 记录 人 们 行为 相 比 会 们 单 很 多 ， 
但 目 陈 式 数 据 并 非 总 是 最 准确 的 。 当 你 看 到 那些 由 人 研究 对 象 提 供 的 数 
据 时 ， 记 住 上 面 的 话 。 


5. 最 后 要 记 住 ， 在 很 多 统计 工作 中 ， 对 数据 的 一 部 分 抽样 
或 对 数据 的 总 体 抽 样 并 无 好 坏 之 分 。 抽 样 是 一 个 强 有 力 的 工具 ， 
能 让 我 们 在 研究 总 体 不 可 行 〈 或 并 不 推荐 这 么 去 做 ) 的 时 候 了 解 到 情 
况 。 你 不 要 被 误导 ， 认 为 一 定 要 研究 所 有 数据 才 行 。 事 实 上 ， 给 数据 
抽取 一 个 样本 会 非常 有 用 。 在 有 些 情况 下 ， 研 究 数据 的 子 集 所 得 出 结 
论 的 确 会 非常 有 意义 而 且 非 常 合适 。 (AC 尼 尔 森 公司 创立 者 阿 瑟 - 查 
尔 斯 :尼尔森 说 过 : “如 采 你 不 相信 抽样 ， 那 下 次 抽 血 的 时 候 ， 让 护士 
把 你 全 身 的 血 全 抽 光 算 了 。" 直 ) 在 其 他 的 一 些 情况 下 ， 我 们 所 研究 
的 结论 是 由 我 们 分 析 特 定数 据 组 所 得 出 的 。 所 以 研究 数据 的 一 部 分 还 
征 全 部 并 不 重要 ， 解 恋 结果 的 方式 以 及 结 采 的 意义 才 是 关键 所 在 。 


1. As quoted in Ratings Analysis: Theory and Practice by James Webster, Patricia Phalen, 
and Lawrence Lichty, (Lawrence Erlbaum Associates, 1991), 113. 


第 二 章 红色 州 为 什么 变 蓝 了 : EAR AA 
近 观 概括 性 统计 
你 应 该 知道 得 克 萨 斯 州 的 埃 尔 帕 索 吧 ， 在 那里 会 举行 得 克 萨 斯 西 
部 最 大 的 文身 、 音 乐 节 “ 得 克 了 萨 斯 对 决 节 ”。 也 许 你 之 所 以 知道 这 个 地 
方 ， 是 因为 史 蒂 夫 . 米 勒 乐队 在 那里 营 上 了 大 麻烦 。 人 外 
不 过 ， 如 果 你 从 政 ， 你 可 能 会 知道 埃 尔 帕 索 虽然 是 计 选票 的 地 区 
之 一 ， 但 那个 地 方 的 选票 并 不 总 能 统计 出 来 。 


I? 


我 们 来 回忆 一 下 2012 年 总 统 选 举 ， 巴 拉克 .奥巴马 在 埃 尔 帕 索 县 
( 埃 尔 帕 索 的 所 在 地 ) 获得 了 70% 的 选票 。 他 的 主要 对 手 米 特 : 罗 姆 尼 
获得 了 28% 的 选票 。( 由 事实 上 ， 奥 巴 马 在 得 克 萨 斯 州 获得 了 超过 300 万 
张 选票 。 


但 由 于 数据 的 计算 方式 ， 导 致 这 些 选票 并 没有 给 选举 结果 带 来 任 
何不 同 。 


我 们 都 知道 没事 别 著 得 克 院 斯 州 的 人 。 所 以 ， 到 故 发 生 了 什么 ? 

ERMES ° 

我 们 在 本 书 前 面 章节 所 到 过 ， 美 国 使 用 选举 团 这 种 选举 方式 进行 
选举 ， 而 这 种 选举 方式 在 大 多 数 州 施行 的 是 获 胜 者 获得 全 部 选票 的 方 
式 。 在 多 数 情况 下 ， 总 统 候选 人 只 要 在 某 一 州 获得 多 数 大 众 选票 ， 整 
能 够 获得 该 州 所 有 选举 团 的 选票 。 最 终 ， 便 出 现 了 “红色 州 ” 一 一 在 那 
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人 获得 选举 团 选 票 。 


的 确 ，2012 年 奥巴马 在 得 元 院 斯 州 获 得 了 超过 300 万 张 选 票 ， 但 罗 
姆 尼 获 得 了 超过 400 万 张 选票 。 因 此 罗 姆 尼 获 得 了 得 区 院 斯 州 选举 团 的 
全 部 选票 。 


选举 团 是 数据 合计 的 一 个 例子 一 数据 合计 是 概括 性 统计 的 一 
种 ， 这 种 统计 方法 会 抹杀 数据 的 多 样 性 ， 因 而 常常 具有 误导 性。 你 也 
许 见 到 过 媒体 报道 分 析 红色 州 和 蓝 色 州 可 能 存在 的 所 有 不 同 点 ， 着 重 
指出 了 从 创造 工作 岗位 到 环境 保护 法 到 奥巴马 医保 方案 等 一 系列 不 
同 。 外 但 我 们 思考 、 行 动 、 投 票 的 时 候 ， 真 的 有 那么 多 不 同 点 吗 ?或 
者 如 果 我 们 更 深入 地 研究 一 下 数据 ， 是 否 会 得 出 不 一 样 的 结论 ? 


我 们 来 近 距 离 看 一 下 投票 数据 ， 就 从 密歇根 大 学 的 马克 :纽曼 所 总 
结 的 2012 年 投票 结果 地 图 (图 3_1) 来 看 一 下 吧 e (5) 


你 把 红色 州 和 蓝 色 州 对 比 着 看 ， 会 发 现 有 很 多 不 同 。 例 如 佛 罗 里 
达州 是 美国 东南 部 唯一 一 个 蓝 色 的 州 。 但 之 所 以 会 这 样 ， 是 因为 你 看 
到 的 只 是 州 一 级 的 合计 数据 。 换 名 话说， 你 看 到 的 是 选举 团 竞选 方式 
所 得 出 的 获胜 即 取得 全 部 选票 的 结果 。 人 由 


尽管 地 图 上 的 州 红 蓝 分 明 ， 但 其 中 依然 可 能 会 有 很 多 人 投了 相反 


的 选票 。 
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图 3-1 州 一 级 的 合计 数据 ( 浅 灰色 的 是 红色 州 ， 深 灰色 的 是 蓝 色 州 ) 


图 3-2 县 一 级 的 合计 数据 〈 浅 灰色 的 是 红色 州 ; 深 灰 色 的 是 蓝 色 州 ) 


纽曼 绘制 了 一 系列 有 关 2012 年 选举 各 州 结果 的 地 图 ， 非 常 好 地 体 
现 了 这 一 点 。 在 这 张 图 上 (图 3-2) ,纽曼 以 县 为 单位 描绘 了 选举 结 
果 。 人 四 靠近 一 点 ， 你 就 能 看 到 埃 尔 帕 索 县 是 得 克 萨 斯 州 西北 角 上 的 一 
DER ORARE) 。 


现在 ， 我 们 看 到 了 以 较 小 单位 (县 ) 而 非 较 大 单位 〈 州 ) 统计 的 
投票 结 末 地 图 ， 该 地 图 看 起 来 束 没 那么 泾 消 分 明了 。 除 了 一 些 特例 
(佛蒙特 州 ) ， 大 多 数 州 是 红 蓝 相间 的 。 


(我 们 必须 注意 ， 并 非 所 有 人 都 投了 民主 党 或 共和 和 党。 比如 在 
2012 年 ， 有 67326 名 美国 人 一 一 大 约 相当 于 加 利 福 尼 亚 州 雷 东 多 比 奇 的 
AO, RSPB BRS °c MU, Mem Teme E 
尔 。) 


当然 ， 尽 管 这 些 以 县 为 单位 的 投票 结果 依然 只 显示 了 每 个 县 的 投 
票 总 数 《要么 民主 党 ， 要 么 共和 党 ) 。 因 此 纽曼 更 进一步 ， 基 于 投票 
率 ， 用 粉色 阴影 (我 们 在 该 书 的 地 图 中 将 其 转换 成 了 灰色 ) 表明 每 个 
县 为 候选 人 投票 的 意愿 是 否 强烈 。 这 依然 是 县 一 级 的 数据 总 计 ， 但 我 
们 加 上 了 另 一 个 分 解 层面 一 一 即 每 个 县 为 候选 人 投票 的 意愿 是 否 强 
烈 。 在 图 3-3， 纽 曼 进一步 将 红 蓝 界限 模糊 化 ， 展 现 了 一 个 更 为 微妙 的 
政治 分 布 图 。 埃 尔 帕 索 县 为 深 灰 色 GRE) E, KEARE 
了 70% 的 投票 (事实 上 为 69.84%) 。 


本 章 市 中 ， 三 张 地 图 都 用 了 相同 的 选举 结果 数据 。 都 尽 结 了 投票 
数 ， 但 使 用 了 不 同 层次 的 总 和 。 结 果 ， 根 据 数 据 合 计 的 方法 和 数量 ， 
三 张 地 图 显示 了 投票 者 的 俩 好 ， 这 样 的 偏好 或 多 或 少 有 点 微妙 。 


we 


图 3-3 加 上 为 候选 人 投票 意愿 是 否 强烈 后 的 县 一 级 总 计 


数据 合计 的 方式 会 撼 饰 重要 的 不 同 点 。 以 州 为 单位 的 合计 数据 使 
得 得 克 院 斯 州 成 为 一 个 红色 州 ， 而 以 县 为 单位 的 合计 数据 使 得 得 区 了 伴 
斯 州 的 一 些 呈 持 蓝 色 。 在 本 章 中 ， 我 们 将 探索 人 们 总 结 数 据 曾 用 的 一 
些 统计 方法 ， 并 展示 不 同 的 数据 合计 方法 是 如 何 掩 饰 基 本 数据 潜在 的 
重要 的 不 同 点 的 。 


1. “Take the Money and Run,” Steve Miller Band, from the album Fly Like an Eagle 
(Capitol, 1976). 


2. Election Summary Report, November 14, 2012, 
http://assets01.aws.connect.clarityelections.com/Assets/Connect/RootPublish/elpaso- 
tx.connect.clarity 
elections.com/ElectionResults/2012 ElectionDocs/110612/ELECTION RESULTS ED.pdf, 
accessed through El Paso County Elections website(https://www.epcountyvotes.com/). 


3. See, for example, “Are Red or Blue States Better Job Creators?," CNBC, accessed 
August 16, 2015, http:;//www.cnbc.com/2015/08/13/ are- red-or- blue- statesbetter-job- 


creators.html; *Climate Battle Will Likely Divide Red States and Blue States Down a Green 
Line,” National Journal, accessed August 15, 2016, http://www.nationaljournal.com/ next- 
america/newsdesk/ climate- epa- regulationobama- states- 20150803; Steve Benen, * 
*Obamacare' Thrives in Nation's Largest Blue State," the Maddow Blog, accessed August 16, 
2015, http://www.msnbc.com/ rachel- maddow- show/ obamacare- thrives- nations- largest- 


blue- state. 


All maps are from http:/ www- personal.umich.edu/~mejn/election/2012/.Mark 
Newman, “Maps of the 2012 US Presidential Election Results," from the personal page 
associated with the University of Michigan website, updated November 8, 2012, http:// www- 
personal.umich.edu/^mejn/election/2012/.Text and images used under Creative Commons 


license: http://creativecommons.org/licenses/by/2.0/. 


You also see a lot of red, which is surprising given that Obama won, until you realize that 
the illustration is a map based on the size of the state rather than its population. On Newman's 
website (*Maps of 2012"), he offers cartograms that provide a different look at the results. 
And in case you were wondering, the two states that do not follow a strict winner- take- all 


approach are Maine and Nebraska, which can split their votes among multiple candidates. 
Newman, “Maps of 2012.” 


Federal Election Commission, Federal Elections 2012: Election Results for the U.S. 
President, the U.S. Senate and the U.S. House of Representatives (Washington D.C., July 
2013), http://www.fec.gov/pubrec/fe2012/federalelections2012.pdf. 


当心 数据 颖 队 


《全 球 幸福 指数 报告 》 自 调 为 “全 球 幸福 里 程 碑 式 的 调查 ”。( 轧 该 
报告 为 联合 国 分 文 机 构 所 发 布 ， 每 年 会 有 超过 上 百 万 人 次 的 阅读 量 ， 全 
球 主 要 媒体 都 会 对 其 进行 报道 。 


报告 上 ， 排 名 第 一 的 是 瑞士 ， 再 往 下 看 ， 就 好 像 冬 季 奥 运 会 颁奖 
礼 一 样 列 出 各 个 国家 的 名 次 : 挪威、 加 拿 大 、 瑞 典 等 国都 名 列 前 


at E 


把 报告 文件 下 拉 ， 你 会 看 到 英国 位 列 全 世界 最 幸福 国家 第 21 位 。 
这 个 排名 对 英国 来 说 还 算 体面 ， 因 为 其 排 在 了 德国 、 法 国 、 西 班 牙 前 
面 ， 但 仍然 落后 于 之 前 曾 是 其 殖民 地 的 新 西 兰 和 澳大利亚 。 亿 


如 果 你 把 这 份 172 页 的 报告 翻 一 壳 ， 束 能 看 出 这 份 报告 的 研究 手段 
及 结果 。 你 能 够 (也 必须 ) 提出 一 个 问题 ， 即 研究 人 员 是 如 何 对 人 口 
进行 抽样 并 对 结果 进行 解读 的 。 


但 吸引 我 们 注意 力 的 是 合 国 与 国 进行 比较 这 一 概念 。 一 旦 将 国家 
BYE TEA, (SER EHR BUR) PAY ACHES BAY Be ry 
值 。 


记者 、 人 研究 人 员 ， 以 及 其 他 人 员 使 用 取 和 平均 值 的 方法 掌握 数据 的 
某 些 方面 ， 束 好 像 用 照相 机 拍照 ， 能 够 哲 出 多 个 视角 ， 但 每 张 照 厂 只 
能 从 一 个 角度 进行 招 摄 。 束 好 像 对 数据 取 总 数 一 样 ， 取 平均 值 是 概括 
性 统计 中 的 一 种 ， 能 够 告诉 你 数据 的 一 些 内 容 ， 但 毕竟 只 是 一 种 衡量 
方式 ， 而 且 这 种 衡量 方式 彰 间 市 有 其 统 性 。 把 所 有 数据 收集 起 来 ， 接 


着 将 其 整合 为 一 个 值 ， 取 平均 值 (或 其 他 概括 性 统计 方法 ， 暗 示 了 所 
有 基本 数据 都 是 相同 的 ， 哪 介 事 实 上 这 些 数据 并 不 相同 。 


英国 的 “国家 统计 办 公 室 ” (ONS) 也 收集 幸福 数据 ， 因 此 我 们 可 
以 对 数据 进行 更 为 细 化 的 研究 ， 而 不 是 仅仅 从 《全 球 幸福 指数 报告 》 
上 看 国家 的 平均 值 。 就 像 你 预期 的 那样 ， 当 你 更 近 距 离 观察 了 幸福 指 
数 ， 你 会 发 现 英国 不 同 地 区 的 幸福 指数 不 尽 相同 。 拿 1 到 10 来 打分 ， 不 
同 地 区 有 着 不 同 的 分 数 ， 如 : © 


北 拉 纳 元 邦 一 一 7.0 分 ; 

英格兰 东北 部 地 区 一 一 7.2 分 ; 

圭 内 斯 郡 (威尔士 ` RRE (英格兰 ) 一 一 7.6 分 ; 

埃 利安 锡 尔 、 奥 元 尼 郡 、 设 得 兰 群岛 (苏格兰 ) 一 一 7.9 分 。 


(当然 ， 就 算是 上 面 的 分 数 也 只 是 当地 人 口 的 平均 分 。 很 可 能 这 
些 分 数 会 根据 特定 的 周围 环境 或 基于 不 同性 别 、 收 入 、 年 龄 而 不 同 。 
如 果 你 们 中 有 人 感 兴趣 的 话 ， 根 据 ONS 的 数据 ， 英 国 的 幸福 指数 平均 
分 为 7.3 分 。) 


我 们 并 没有 想 要 将 ONS 的 数据 和 《全 球 焉 福 指数 报告 》 的 数据 进 
行 比较 一 一 我 们 也 不 能 这 么 做 ， 因 为 这 两 个 报告 使 用 的 是 不 同 的 研究 
方法 ， 人 研究 履 盖 不 同 的 时 间 段 ， 除 此 之 外 还 有 其 他 的 差异 。 我 们 列 出 
这 两 组 数据 ， 只 是 想 要 揭示 平均 值 是 如 何 摘 关 数据 差异 的 。 


英国 的 每 个 国民 都 是 不 同 的 。 甲 壳 虫 乐队 不 是 滚石 乐队 。 但 取 一 
个 国家 的 平均 值 会 无 视 这 些 人 差异 ， 仅 从 地 理 角度 把 所 有 人 都 划 到 一 
起 。 


1. 


John F. Helliwell, Richard Layard, and Jeffrey Sachs (eds.), World Happiness Report 
2015 (New York: Sustainable Development Solutions Network, 
2015),http://worldhappiness.report/. 


The data comes from the Gallup World Poll, which asks people to evaluate their lives on 
a scale of 0 to 10 using a tool known as the Cantril Self- Anchoring Striving Scale. The scale 
is named for Hadley Cantril, a researcher who studied, among other things, people’s reaction 
to Orson Welles’s famous War of the Worlds radio broadcast. The Cantril scale asks people to 
think of their life satisfaction as a ladder, and rank their life as the best (10) or worst (0) or 
somewhere in between. Hadley Cantril, The Pattern of Human Concerns (New Brunswick, NJ: 


Rutgers University Press, 1966). 


Personal Well- Being Across the UK, 2012/13. Contains public sector information 
licensed under the Open Government Licence v3.0. Permitted under license.“Open 
Government Licence for Public Sector Information,” the National Archives website, accessed 


July 9, 2015, http://www.nationalarchives.gov.uk/doc/ open- government- licence/version/3/. 


平均 数 、 中 位 数 和 众 数 哪个 更 可 信 ? 


从 统计 学 角度 讲 ， 谈 到 平均 值 ， 你 必须 了 解 三 个 概念 : 平均 数 、 
中 位 数 、 众 数 。 


所 谓 “ 平 均 数 "， 即 大 多 数 人 所 谓 的 “平均 值 ”。 想 要 取 平 均 数 ， 丈 
把 所 有 的 数值 相 加 ， 再 除 以 数据 个 数 即 可 。 


所 谓 “ 中 位 数 ”"， 即 中 间 值 。 如 采 你 将 数据 以 从 小 到 大 的 顺序 排 
列 ， 中 间 那 个 数据 就 是 中 位 数 。《〈 如 果 数 据 总 数 为 偶数 ， 那 中 位 数 就 
征 最 中 间 两 个 数据 的 平均 数 。) 


所 谓 * 众 数 "， 即 数据 中 出 现 次 数 最 多 的 那个 数 。 如 采 没 有 数据 出 
现 次 数 大 于 一 次 ， 那 就 没有 众 数 。 在 男 一 方面 ， 如 采 有 两 个 (或 两 个 
以 上 ) 数据 出 现 次 数 相同 ， 那 将 会 有 多 个 从 数 。 


我 们 来 看 一 些 数据 样本 ， 更 直观 地 了 解 一 下 上 面 的 概念 。( 轩 


想象 一 下 ，2013 年 你 住 在 西雅图 的 切尔西 公寓 。 这 座 为 西雅图 世 
界 博 览 会 而 造 的 公寓 楼 有 10 个 公寓 单元 9) 


现在 ， 我 们 假定 其 中 9 个 公寓 单元 为 你 和 你 的 伙伴 所 居住 《一 人 一 
个 ) ， 而 且 巧合 的 是 你 们 的 年 收入 完全 相同 一 一 5 万 美元 。 


一 天 ， 比 尔 : 盖 次 决定 大 量 裁 员 ， 并 搬 进 了 第 10 套 公 帘 居 住 。 他 那 
年 的 收入 为 115 亿 美元 。( 电 要 计算 公寓 楼 中 住户 年 收入 的 平均 数 ， 你 
和 完 要 把 每 个 人 的 年 收入 相 加 : 50000+50000+...+50000+... 
+11500000000=11500450000 (美元 。 接 着 除 以 人 数 (10) ， 得 出 平 
均 年 收入 1150045000 (美元 ) 。 


要 取 10 个 人 年 收入 的 中 位 数 ， 你 要 把 数据 从 小 到 大 排列 ， 并 挑 出 
中 间 那 个 数值 。 


1.50000 
2.50000 
3.50000 
4.50000 
5.50000 
6.50000 
7.50000 
8.50000 
9.50000 
10.11500000000 


中 位 数 为 50000。 (因为 我 们 数据 的 总 数 为 偶数 ， 所 以 我 们 取 中 间 
两 个 数值 的 平均 数 。) 


现在 ， 我 们 来 计算 10 个 人 年 收入 的 众 数 ， 你 只 要 计算 一 下 哪个 数 
值 出 现 次 数 最 多 即 可 。 


年 收入 出 现 次 数 
50000 9 


11500000000 1 


这 就 很 简单 了 ， 年 收入 的 众 数 为 50000， 因 为 这 个 数值 在 10 次 中 出 
现 了 9 次 。 


因此 ， 年 收入 的 平均 数 超过 10 亿 美元 ， 但 中 位 数 和 众 数 都 是 5 万 美 
元 。 如 果 你 想 要 计算 这 座 楼 住户 的 年 收入 ， 哪 个 值 最 为 准确 ? (E 
示 : 可 以 取 上 面 三 种 方法 得 出 来 的 数值 的 平均 数 ! ) 在 这 种 情况 下 ， 
取 中 位 数 和 众 数 会 比较 好 。 〈 不 过 ， 如 果 你 想 要 佑 算 所 得 税 所 产生 的 
影响 ， 那 平均 数 可 能 更 为 准确 。) 


当 你 观察 数据 的 时 候 ， 如 何 才 能 知道 人 们 所 说 的 “平均 值 ? 是 什 
A? 如 有 果 你 假定 “ 乎 均值? 即 平均 数 ， 很 有 可 能 你 是 对 的 ， 但 如 采 想 得 
到 确定 的 答案 ， 唯 一 的 办 法 区 是 询问 。 


1. Thanks to Richard Strausz, a board member of the Detroit Area Council of Teachers of 
Mathematics— and Mike's wife's uncle— for the inspiration for this section. 


2. *Chelsea Apartments," Yateswood.com, accessed August 5, 2015, 
http://www. yateswood.com/sites/default/files property- files/Chelsea9620Offering 0.pdf. 


3. Julia La Roche, *Here's How Much 10 of the Richest People in the World Made per 
Minute in 2013," Business Insider, December 19, 2013, http://www.business insider.com/ 
what- warren- buffett- makes- per- hour- 2013-12#ixzz3jyUhYnBx. 


eee d lad 死 时 是 犹太 


按照 平均 值 来 看 ， 迈 阿 密 人 生 下 来 是 西班牙 家 ， 死 的 时 候 钙 犹太 
人 。 


这 是 个 玩笑 话 ， 但 能 看 出 依赖 平均 值 的 危险 之 处 。 (迈阿密 戴 德 
县 总 出 生 人 口中 ，609%6 为 西班牙 裔 ， 而 该 县 的 犹太 人 只 占 59%。) © 


平均 值 的 优点 在 于 将 数据 中 的 所 有 数值 都 计算 进去 ， 并 将 其 简化 
为 一 个 数值 。 然 而 ， 这 个 优点 也 蜡 侣 着 巨大 的 危险 。 如 果 数 据 中 每 个 
值 都 完全 相同 《可 以 将 其 想象 成 一 排 一 模 一 样 的 砖 块 ) 那 乎 均值 可 能 
的 确 能 够 准确 反映 出 每 一 个 数值 的 一 些 特性 。 但 如 采 数 值 在 很 多 关键 
方面 并 不 相同 一 一 很 多 数据 组 都 不 相同 一 一 那 平均 值 很 可 能 让 高 于 或 
低 于 平均 值 的 数值 或 同 平均 值 不 同 的 数据 组 变 得 含糊 不 清 ， 还 会 使 一 
些 数 据 显 得 与 众 不 同 。 


试想 有 两 个 男人 ， 一 个 体重 150 磅 (68T 75) ， 男 一 个 体重 250 磅 
(113 千 克 ) 。 他 们 的 平均 体重 为 200 磅 (91 千 克 ) 。 但 是 ， 这 个 平均 
值 是 否 能 提供 给 我 们 他 们 个 人 体重 的 有 用 信息 呢 ? 在 这 种 情况 下 ， 平 
均值 无 法 准确 地 回答 我 们 所 关心 的 问题 。 根 据 统计 学 家 雷 蒙 德 . 布 列 特 
的 统计 ，2015 年 波士顿 马拉松 赛 的 平均 完成 时 间 为 3 小 时 46 分 钟 。 什 ) 
但 没有 任何 女性 组 〈 布 列 特 将 比赛 人 员 进 行 了 分 组 ) 参赛 者 跑 得 比 平 
均 成 绩 要 好 。 如 果 我 们 比较 关心 女性 马拉松 运动 员 的 成 绩 ， 那 上 面 的 
平均 成 绩 又 能 告诉 我 们 什么 呢 ? 


平均 值 误导 我 们 的 男 一 个 方式 便 是 仅仅 抓 住 了 数据 的 一 个 侧面 。 
EA, QAO Aue (澳大利亚 版 ， 上 的 一 篇 文章 列举 了 体重 相同 的 6 


位 女性 -154 磅 (70 千 克 ) o OBARAN, HERE 
们 体形 各 不 相同 ， 身 高 也 从 不 到 5 英尺 到 6 英尺 多 (145~186 厘 米 ) 不 
等 。 平 均 体 重 没有 涵盖 任何 其 他 数据 。 


最 后 ， 束 好 像 我 们 在 本 书 中 涉及 的 所 有 数据 概念 ， 平 均值 并 不 能 
孤立 地 看 待 。 平 均值 只 有 在 有 其 他 数据 文 撑 的 时 候 才 有 用 。 如 采 你 的 
样本 无 法 反映 出 数据 总 体 的 情况 ， 如 果 你 有 e 或 者 如 
果 你 的 数据 有 其 他 问题 ， 那 你 所 得 出 的 平均 值 将 具有 误导 性 


1. “March of Dimes Peristats" March of Dimes website, accessed July 10, 
2015, http://www.marchofdimes.org/peristats/View Topic.aspx? 
dv=mt®=12086&top=2&lev=0&slev=6; “2014 Greater Miami Jewish Federation Population 
Study: A Portrait of the Miami Jewish Community,” Greater Miami Jewish Federation 
website, accessed July 10, 1015, http://jewishmiami.org/population study/ and Census Bureau 
data. 


I2 


Raymond Britt, *Boston Marathon 2015 Statistical Analysis," Competitor.com, updated 
April 22, 2015, http://running.competitor.com/2015/04/photos/ boston- marathon- 2015- 
statistical- analysis 127026. 


e 


Julie Adams, *Who Weighs the Aussie Average?," Marie Claire.com.au website,accessed 
July 10, 2015, http://nicolepartridge.com/wp- 
content/uploads/2012/05/MC05_FEAT_70kg.pdf. 


为 什么 副 市 长 会 比 市 长 赚 得 多 ? 


这 儿 有 个 例子 可 以 说 明基 本 数据 是 如 何 影响 平均 值 的 。 
在 美国 ， 市 长 /镇 长 的 平均 工资 为 62000 美 元 。 


副 市 长 / 副 镇 长 的 平均 工资 为 83000 美 元 。 包 


副 市 长 / 副 镇 长 怎么 束 比 市 长 /镇 长 赚 得 多 呢 ? 咽 ， 哪 怕 只 有 一 个 红 
绿灯 路 口 的 小 镇 ， 都 会 有 镇 长 ， 那 样 的 小 镇 长 拿 的 工资 不 高 。《 南 你 
德比 纪事 报 》 上 的 一 份 研究 发 现 大 部 分 小 镇 长 的 收入 都 低 于 1 万 美元 。 
加 当 你 计算 全 国平 均值 的 时 候 ， 这 些 低 薪 水 的 官员 会 把 整个 数字 拉 
jj; 


另 一 方面 ， 拿 薪水 的 副 市 长 / 副 镇 长 是 只 有 大 城市 才能 够 负担 得 起 
的 职位 。 城 市 越 大 ， 薪 水 越 高 。 比 如 纽约 市 有 四 个 副 市 长 ， 每 个 副 市 
长 的 工资 能 到 20 万 美元 。 人 四 


你 研究 市 长 /镇 长 工资 的 时 候 ， 你 看 的 古 所 有 城镇 的 数据 。 如 采 你 
研究 的 是 副 市 长 / 副 征 长 的 工资 ， 那 你 所 人 研究 的 范围 束 会 缩小 到 那些 目 
治 市 (而且 很 可 能 拿 更 多 薪水 ) 。 因 此 ， 如 果 你 只 看 那些 有 副 市 长 / 副 
征 长 的 城市 ， 你 可 能 会 发 现 市 长 /镇 长 的 平均 工资 比 副 市 长 / 副 镇 长 高 。 
但 如 琳 你 把 设 有 以 及 没有 设 有 副 市 长 / 副 镇 长 职位 的 城镇 部 计算 进去 ， 
你 最 终 得 出 的 数据 一 一 第 一 眼看 上 去 一 一 会 完全 出 平 意料 。 


这 是 男 一 个 统计 概念 相互 重合 、 相 互 影 响 的 例子 。 如 采 你 看 的 古 
平均 值 ， 顾 名 思 义 ， 你 研究 的 是 一 个 特定 的 数据 组 。 如 有 果 你 比较 平均 


值 ， 而 且 这 些 平均 值 来 自 不 同 的 样本 集 ， 那 样本 集 的 不 同 会 在 平均 值 
中 显现 出 来 。 记 住 ， 平 均值 并 不 比 基 本 数据 更 胜 一 筹 。 人 外 


来 谈 谈 工作 与 平均 值 ， 你 知道 如 果 待 在 一 个 单位 不 动 ， 赚 的 钱 会 
比较 少 吗 ? 根据 《福布斯 》 的 说 法 :“ 在 同一 公司 任职 超过 两 年 ， 一 莫 
子 下 来 平均 会 少 挣 大 于 等 于 50% 的 钱 。”¥ 当 


这 是 为 什么 ? 根据 《福布斯 》 杂 志 的 说 法 ， 因 为 如 果 你 生 在 同一 
家 公司 ， 考 虑 到 通货 膨胀 等 因素 ， 你 的 净 收 入 平均 来 讲 只 增加 19%， 但 
跳槽 的 人 平均 收入 会 增加 109%~20%， 甚 至 更 多 。 把 这 一 点 考虑 进去 ， 
如 果 你 换个 几 份 工作 ， 那 你 工资 单 上 的 收入 将 会 明显 增加 。 


我 们 不 古 说 你 应 该 跳 权 。 平 均值 仅仅 说 明了 做 这 项 研究 的 小 组 的 
工作 成 果 ， 但 具体 的 情况 会 因 人 而 异 。 不 过 有 时候 平 均值 能 为 你 所 期 
望 达到 的 目标 指点 一 二 。 


如 果 你 想 要 从 事 播音 行业 ， 你 可 能 会 想 看 一 下 电视 新 闻 主 持 人 的 

资 待遇 。 根 据 广播 电视 数字 新 闻 协 会 与 霍 夫 斯 特 拉 大 学 的 年 度 调 查 
显示 ，2015 年 ， 主 持 人 的 “平均 ”工资 为 83800 美 元 。 这 个 收入 并 不 差 ， 
但 如 果 你 看 一 下 工资 的 中 位 数 ， 你 会 发 现 仅 仅 只 有 65000 美 元 。( 时 得 
出 这 个 结论 会 有 多 个 解释 (包括 最 高 工资 高 得 吓人 ， 为 87.5 万 美元 ， 
这 个 工资 能 够 大 幅度 提高 平均 工资 ， 但 不 会 对 工资 中 位 数 产 生 多 少 影 
啊 ， 甚 至 不 产生 任何 影响 ) 。 但 设想 一 下 如 果 你 想 要 去 学 校 读 新 闻 专 
业 ， 当 你 听 到 “新 闻 主 持 人 和 平均 工资 为 83800 美 元 ”和 听 到 “新 闻 主 持 人 
工资 的 中 位 数 为 65000 美 元 ”这 两 种 说 法 中 ， 哪 种 说 法 能 让 你 更 倾向 于 
选择 走 新 闻 行 业 这 条 路 ? 


1. “Simply Salary: Mayor" Simply Hired website, accessed July 10, 2015, 
http://www.simplyhired.com/salaries-k- ^ mayor-jobs.html; “Simply Salary: Deputy 
Mayor,”Simply Hired website, accessed July 10, 2015, http://www.simplyhired.com/salaries- 
k- deputy- mayor-jobs.html. And yes, we have some concerns about the accuracy of this data 


for numerous reasons, including that it's only from online job listings, and that the source 
doesn't defineaverage (we're assuming it's mean,but can't be sure). That said, we've chosen to 
include this example because it illustrates a much- needed point about how sample sets can 


impact averages. 


*How Much Mayors Make, Langley Council Plans Review of Mayor's Salary,"South 
Whidbey Record, May 22, 2011, http://www.southwhidbeyrecord.com/news/122414919.html. 


*Mayor, Office of the (OTM)," NYC Citywide Administrative Services website,accessed 
July 3, 2015, http:// a856- gbol.nyc.gov/gbolwebsite/390.html. In fact, the first deputy mayor 
(who is second in command) has a higher salary than the mayor— although this could be 
because the mayor receives other benefits,including the use of Gracie Mansion on the city’s 
Upper East Side. 


As one of John's colleagues noted, this could be seen primarily as a selection issue. His 
point was that a more accurately selected sample would not be misleading, because we could 
either look at just a sample that had mayors and deputy mayors, or we could look at all cities 
and put in a zero as the deputy mayor's salary for cities that don't have a deputy mayor. Either 
way, you would likely get an answer showing that the deputy, on average, makes less than the 


mayor. 


Cameron Keng, *Employees Who Stay in Companies Longer Than Two Years Get Paid 
50 Percent Less," Forbes website, June 22, 2014, 
http://www.forbes.com/sites/cameronkeng/2014/06/22/ employees- that- stay-in- companies- 
longer- than-2- years- get- paid-50-less/. 


Bob Papper, Research: RTDNA Salary Survey, Radio Television Digital News 
Association website, July 13, 2015, 
http://www.rtdna.org/article/research rtdna salary. surveys. VaU VOOXFTbU. 


如 何 评估 学 生 的 成 绩 ? 


平均 值 如 采 从 最 纯粹 的 角度 来 看 ， 每 个 数据 都 得 到 了 平等 对 行 ， 
但 这 并 不 总 是 你 想 要 得 到 的 结 末 。 


试想 你 古 个 英语 教师 ， 你 想 要 给 学 生 最 终 成 绩 。 一 年 来 ， 学 生 一 
共 经 历 了 三 次 小 测试 、 一 次 期 中 考 、 一 次 期 末 考 。 


如 采 你 想 公平 对 竺 每 一 组 数据 ， 你 可 以 直接 把 所 有 考试 成 绩 相 
加 ， 并 除 以 5 (考试 次 数 ) ， 得 出 学 生 的 最 终 成 绩 。 但 可 能 你 会 觉得 期 
末 考 试 应 该 比 期 中 考试 占 的 比重 更 大 些 ， 而 期 中 考试 又 应 该 比 小 测试 
占 的 比重 更 大 些 。 


这 种 情况 称 为 加 权 平 均 。 加 权 平 均值 顾名思义 :你 基于 重要 程度 
给 每 一 个 值 加 以 权重 。 比 如 你 基于 对 每 项 考试 对 学 生成 绩 重 要 程度 的 
判断 ， 认 为 三 次 小 测试 应 该 占 总 分 的 10%， 期 中 考试 占 总 分 的 20%， 
期 末 考 试 占 总 分 的 50%。 现 在 ， 假 定 你 在 深思 熟 虑 后 ， 确 定 了 每 一 项 
考试 所 占 的 百分比 ， 那 最 终 得 出 的 加 权 平 均值 将 更 为 准确 地 体现 学 生 
的 表现 。 


侧重 于 使 用 加 权 平 均值 可 能 与 简单 (未 加 权 ) 平均 值 有 所 不 同 ， 
因为 从 定义 上 讲 ， 加 权 平 均值 对 某 些 数据 更 为 重视 。 当 你 想到 平均 
值 ， 试 着 确定 这 个 平均 值 到 底 钙 简单 平均 值 还 是 加 权 平 均值 。 如 采 是 
加 权 平 均值 ， 弄 清楚 这 个 平均 值 是 如 何 加 权 的 ， 并 找 出 那些 数据 更 为 
重要 。 在 我 们 刚才 讨论 的 成 绩 例子 中 ， 很 明显 期 末 考 试 更 为 重要 ， 对 
平均 值 的 影响 也 较 大 ， 老 师 (可 能 ， 有 意 对 这 些 测试 加 以 不 同 权 重 。 
在 其 他 情况 下 ， 加 权 可 能 是 无 意 为 之 ， 或 看 起 来 不 那么 明显 。 


平均 值 的 平均 值 


平均 值 将 数据 整合 起 来 ， 但 如 果 基本 数据 已 经 经 过 了 整合 ， 
生 什么 事 ? 


如 果 你 看 新 闻 的 话 ， 可 能 看 到 过 选举 之 选举 一 又 称 整合 选举 结 
果 ， 媒体 (或 其 他 机 构 ) 将 不 同 的 选举 结果 整合 为 一 个 容易 理解 的 数 
字 。BBC、Real Clear Politics (美国 一 政治 新 闻 网 站 ) 新 闻 网 以 及 其 他 
机 构 会 定期 提供 这 样 的 信息 。( 时 


现在 ， 你 已 经 了 解 平 均值 是 基于 其 组 成 部 分 得 出 的 ， 这 些 部 分 越 
相似 ， 平 均值 束 越 能 够 体现 各 个 值 的 情况 。 但 在 整合 选举 结 末 中 ， 你 
所 使 用 的 数据 可 能 在 表面 上 看 起 来 很 像 ， 但 都 由 其 各 目的 收集 、 解 
读 、 整 合 方式 所 得 出 。 对 于 一 个 成 熟 的 数据 接收 者 来 说 ， 这 样 的 情况 
会 市 来 请 多 疑问 。 比 如 : 

所 有 选举 结果 是 否 在 整合 的 时 候 受 到 平等 对 待 ， 或 者 其 中 一 些 是 
否 由 于 样本 大 小 、 时 效 性 、 历 史 准 确 性 等 因素 被 赋予 了 更 大 的 权重 。 


每 个 单独 的 选举 都 有 误 兰 值 。 这 些 误 兰 值 如 何 对 整合 选票 产生 影 
M? 《如 果 的 确 产 生 影响 的 话 ) 取 平 均值 并 不 会 消除 基本 选举 的 不 确 
定性 。 


各 个 选举 的 不 同 点 是 什么 ? (调查 问卷 的 问题 、 样 本 大 小 ， 以 及 
其 他 选举 方法 ) 这 些 不 同 是 如 何 影 响 各 个 选举 结果 以 及 整合 数据 的 ? 


重点 是 什么 ? 重点 就 是 尽管 整合 选票 可 能 “有 时 候 ) 比 单 次 投票 
结果 更 为 准确 〈 该 结论 是 普林斯顿 选举 联盟 以 及 其 他 机 构 得 出 的 ) ， 


发 


ip 


但 是 一 个 高 质量 的 调查 问卷 和 一 大 堆 质量 参差 不 齐 的 调查 问卷 相 比 ， 
能 更 好 地 告诉 我 们 竞选 人 的 立场 。( 馈 


1. “UK Politics, How Poll Tracker Works,” BBC News website, April 10, 
2015,http://www.bbc.com/news/uk- politics- 13248622; Real Clear Politics, 
http://www.realclearpolitics.com/. 


2; Sam Wang, “On the Track Record of Simple Poll Aggregation," Princeton Election 
Consortium website, October 24, 2008, http://election.princeton.edu/2008/10/24/on- the- 
track- record-of- simple- poll- aggregation/. 


Basa THER 


除非 你 处 理 的 是 完全 相同 的 数据 组 ， 即 所 有 数据 的 值 都 一 样 ， 否 
则 你 的 数据 中 总 有 一 些 值 和 平均 值 不 同 。 


比如 ， 我 们 这 章 讲 到 的 英国 幸福 指数 ， 我 们 指出 英国 的 幸福 指数 
为 7.3。 但 英国 不 同 地 区 的 笠 福 指数 从 7.0 到 7.9 不 等 。 


这 些 数 据 看 起 来 相互 吻合 。 这 便 是 你 在 调查 数据 总 体 的 时 候 期 户 
看 到 的 事 。 


但 有 时候， 你 会 发 现 有 一 些 特定 的 观察 资料 与 其 他 材料 无 法 吻 
合 。 也 许 有 些 数据 远 远 高 于 (BURT) 其 他 数据 ， 或 者 也 许 某 个 数据 
和 其 他 任何 数据 放 在 一 起 ， 都 显得 格格 不 入 。 


这 些 反常 的 事物 被 称 为 异类 。( 思 国家 橄榄 球 联盟 球员 是 异类 ; 14 
罗 束 从 大 学 毕业 的 孩子 是 异类 ;， 那 你 公司 最 差 ， 只 完成 了 倒数 第 二 名 
1/3 业 绩 的 销售 人 员 呢 ? 也 是 个 异类 。 


你 在 观察 平均 值 的 时 候 ， 需 要 留心 这 些 异 类 。 因 为 你 即将 发 现 这 
些 离 群 值 对 平均 值 会 产生 十 分 巨大 的 影响 。 束 好 像 在 清 咖 啡 里 面 加 入 
奶油 。 尽 管 咖啡 的 含量 依然 达到 95% ， 但 儿 滴 奶油 将 大 大 改变 咖啡 的 
外 观 。 


难点 在 于 离 群 值 没有 一 个 确定 的 判断 标准 。 有 些 经 济 学 家 认为 理 
论 上 离 群 值 束 是 大 大 侦 离 中 位 数 的 那个 数值 ， 但 从 实践 上 讲 ， 这 种 判 
断 非常 主观 ， 而 且 不 同人 有 不 同 的 解读 方式 。 人 过 ) 这 就 是 为 何 统计 学 家 
化 费 大 量 时 间 逐 例 分 析 数 据 ， 以 判断 其 是 否 是 离 群 值 。 


所 以 ， 是 什么 导致 离 群 值 的 出 现 ? 有 时 候 ， 仅 仅 是 因为 出 了 差 
错 。 可 能 有 人 在 往 空 日 表格 上 填 数 字 的 时 候 ， 把 数字 顺序 搞 错 了 ， 把 
4.9 填 成 了 9.4。 也 许 试 管 受到 了 污染 ， 导 致 细菌 数 远 远 高 于 正常 值 。 错 
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认 在 创造 纪录 的 那个 赛季 服用 了 药物 ， 从 而 证 实 粉丝 和 数据 学 家 的 怀 
疑 是 正确 的 。 


最 后 ， 你 在 阅读 或 听 新 闻 的 时 候 ， 要 记 住 有 些 故 事 之 所 以 能 够 成 
为 新 闻 ， 只 因 其 报道 的 是 离 群 值 。 老 生 常 谈 和 那些 GRO) FRCS Hf 
的 事 相 比 ， 营 常会 显得 没有 那么 激动 人 心 。 


1. ”异类 (outlier) 在 统计 学 上 称 为 离 群 值 。 一 一 译 者 注 


2. For example, some statisticians and economists look for three or four standard deviations 


(which is a statistical measure of how spread out the data is) as an indicator of an outlier. 


去 掉 最 高 分 和 最 低 分 有 道理 吗 ? 


如 条 你 关注 奥林匹克 运动 会 的 话 ， 你 可 能 熟悉 人 们 试看 应 对 离 群 
值 的 方法 一 一 直接 将 其 抛弃 。 例 如 ， 在 跳水 、 体 操 ， 以 及 其 他 运动 项 
目 上 ， 运 动员 的 得 分 古 去 除 最 高 分 和 最 低 分 ， 再 将 其 他 裁判 的 分 数 相 
加 ， 再 取 平 均值 所 得 出 的 。 


这 种 策略 名 为 截 尾 取 平均 数 _ 能够 防止 因为 一 个 裁判 的 仿 
见 或 个 人 喜好 影响 最 终结 果 。 根 据 一 篇 研究 2000 年 奥林匹克 运动 会 跳 
水 成 绩 的 文章 ， 这 种 截 尾 取 平均 数 的 方法 不 止 影响 了 一 块 奖牌 的 归 
|- Mi 


然而 ， 截 尾 取 平 均 数 一 一 拿 这 个 方法 来 处 理 可 能 存在 的 离 群 值 
一 一 真 的 有 用 吗 ? 你 可 以 问 一 下 自己， 如果 有 超过 一 名 裁判 偏向 于 某 
个 运动 员 ， 会 出 现 什么 情况 ? 奥 林 匹 元 运动 会 前 用 的 评分 方式 仅仅 去 
余 最 高 值 和 最 低 值 。 再 考虑 一 下 ， 截 尾 取 平 均 数 这 一 方式 将 最 高 值 和 
最 低 值 当 作 离 群 值 看 待 ， 而 不 管 其 是 否 真 的 是 离 群 值 。 这 样 的 评分 方 
式 真 的 公平 吗 ? 


现在 束 出 现 了 问题 ， 即 是 否 最 蜗 分 和 最 低 分 一 一 不 论 其 是 否 古 离 
群 值 一 一 是 偏见 的 标志 。 的 确 ， 国 别 的 仿 见 可 能 存在 一 一 研究 人 员 发 
现 “ 绝 大 多 数 裁判 较 不 是 目 己 国家 的 运动 员 而 言 ， 会 给 目 己 国家 的 运动 
员 更 高 的 分 数 ”。( 思 但 是 我 们 来 看 一 下 中 国 的 跳水 裁判 ， 他 在 2000 年 
奥运 会 期 间 ， 给 中 国 跳水 运动 员 的 平均 成 绩 比 非 中 国 跳水 运动 员 要 高 
1.4857 * E EUR MILE? 但 当 人 研究 人 员 分 析 数 据 的 时 候 ， 发 现 其 
实 该 裁判 从 他 给 出 的 分 数 来 看 “显然 是 最 没有 偏见 的 ”。 这 怎么 可 能 ? 
因为 这 个 中 国 裁判 给 中 国 以 及 非 中 国 跳水 运动 员 打 出 的 分 数 ， 平 均 来 
看 比 其 他 裁判 都 要 高 。 中 国 跳水 运动 员 水 平 的 确 出 色 ， 事 实 上 ， 他 们 


的 平均 分 比 非 中 国 跳水 运动 员 要 高 出 1.44 分 。 因 此 ， 研 究 人 员 观 察 这 
位 中 国 裁判 打 的 分 数 ， 发 现 同 其 他 裁判 给 本 国 跳水 运动 员 加 的 分 数 相 
比 ， 事 实 上 这 位 中 国 裁 判 给 中 国 跳水 运动 员 加 的 分 数 相对 较 少 。 在 这 
种 情况 下 ， 把 这 位 中 国 裁 判 的 分 数 去 挥 还 有 道理 吗 ? 


1. John W. Emerson and Silas Meredith, Nationalistic Judging Bias in the 2000 Olympic 
Diving Competition, August 22, 2010, 
http://www.stat.yale.edu/~jay/EmersonMaterials/MathHorizons.pdf. The specific event in 
which the outcome may have changed was women's 10-meter platform, which the authors 
explored in: John W. Emerson, Miki Seltzer, and David Lin, *Assessing Judging Bias: An 
Example from the 2000 Olympic Games," American Statistician 63, no. 2 (2009):124- 131. 


2. Emerson and Meredith, Nationalistic Judging. 


总 统 办 公 室 的 离 群 值 ? 


当然 ， 有 些 离 群 值 并 非 错 误 或 危险 信号 一 一 它们 是 完全 有 效 的 数 
据 。 以 美国 历史 为 例 ， 如 果 你 观察 美国 总 统 的 在 职 时 间 ， 你 会 发 现 大 
多 数 总 统 的 在 职 时 间 为 1460 天 或 2921 天 (误差 为 1 天 ) ， 分 别 对 应 4 年 
和 8 年 任期 。 但 根据 统计 学 家 罗伯特 -W, 海 登 博士 的 分 析 ( 汪 ， 有 44% 的 
美国 总 统 在 职 时 间 大 于 或 小 于 上 面 的 时 间 ， 使 其 在 职 时 间 成 为 离 群 
值 。 每 次 只 要 总 统 于 在 职 期 间 逝 世 (意味 着 没有 完成 其 任期 ) ， 他 的 
在 职 时 间 便 成 为 离 群 值 — 接 兰 其 位 置 的 人 的 在 职 时间 也 将 成 为 离 群 
值 。 


因此 ， 你 如 何 处 理 离 群 值 ? 你 将 其 平等 对 待 ， 将 其 和 其 他 数据 放 
在 一 起 ， 让 平均 值 因 之 偏 和 斜 ， 还 是 将 其 完全 忽视 ”有 没有 折 中 的 办 
TE? 


这 要 视 情 况 而 定 。 并 不 存在 通用 规则 ， 因 为 情况 不 同 ， 离 群 值 并 
不 总 是 能 够 轻易 辨别 。 比 如 ， 有 些 家 长 可 能 会 有 因为 目 己 小 孩 的 号 高 
排 第 35 个 百 分 位 ， 束 认为 其 身高 是 离 群 值 。 其 他 家 长 除非 目 己 小 孩 排 
第 5 个 百 分 位 ， 不 然 并 不 对 此 关心 。 总 之 ， 当 你 观察 平均 值 ， 必 然 会 看 
到 有 些 数值 比 平均 值 高 ， 有 些 数值 比 平均 值 低 。( 岂 


关键 在 于 你 必须 观察 数据 ， 判 断 离 群 值 对 你 想 要 回答 的 问题 产生 
了 多 大 的 影响 。 


这 便 引 出 了 康 伍德 公司 。 


1. Robert W. Hayden, *A Dataset That Is 44 Percent Outliers," Journal of Statistics 
Education 13, no. 1 (2005), www.amstat.org/publications/jse/v13n1/datasets.hayden.html. 


An exception being if every value in the data set is identical. 


掩盖 信息 的 代价 为 10 亿 美元 


有 反 垄 断 法 出 台 以 来 数额 最 大 的 裁决 ，10 亿 5000 万 美元 ， 该 案件 和 
离 群 值 轧 恩 相 关 。 


康 伍德 烟草 公司 以 阻碍 其 发 展 为 名 起 诉 另 一 家 烟草 公司 美国 
烟草 公司 。( 思 康 伍 德 公司 的 数据 专家 对 美国 各 个 州 进行 分 析 ， 并 宣称 
美国 烟草 公司 对 康 伍德 公司 市 场 占 有 率 产 生 了 不 利 的 影响 。 人 四) 


问题 出 在 了 这 项 分 析 把 华盛顿 哥伦比亚 特区 一 一 相 比较 而 言 ， 该 
地 区 的 市 场 极 小 一 一 包含 了 进去 。 这 束 意 味 着 哪 伯 康 伍德 公司 的 产品 
销售 量 产 生 了 很 小 的 变化 〈 仅 仅 在 几 家 店 里 积压 ) 都 会 大 大 改变 市 场 
BK o 


分 析 数 据 后 ， 可 以 明显 地 看 到 华盛顿 哥伦比亚 特区 和 其 他 48 个 州 
相 比 十 分 不 同 (不 包括 阿拉 斯 加 和 夏威夷 ) 。 研 究 反倾销 的 赫 尔 伯 特 . 
郝 文 坎 普 教 授 称 之 为 “< 明显 的 离 群 值 "。( 岂 但 专家 并 未 排除 离 群 数据 ， 
而 是 将 其 包含 在 内 ， 使 得 其 他 数据 因 之 发 生 偏离 ， 得 出 了 一 个 不 被 其 
他 数据 所 支持 的 结论 。 正 如 同 孝文 坎 普 所 说 : “原告 聘请 的 专家 完全 无 
ULT Ec rp Ef me fn e 7) 


如 果 排 除了 离 群 值 确实 可 以 证 明 应 该 排除 这 样 的 离 群 值 ， 屠 
所 得 出 的 结论 中 ， 康 伍德 公司 的 市 场 占 有 率 将 发 生 明显 上 升 。 但 是 ， 
由 于 极端 的 观测 方式 ， 导 致 最 终结 果 显示 康 伍德 公司 的 市 场 占有 率 发 
生 了 下 降 。 


如 果 你 排除 了 一 个 数据 值 ， 导 致 结果 产生 了 巨大 的 变化 ， 那 这 个 
数据 值 很 可 能 是 离 群 值 。 在 一 个 恨 好 的 统计 模型 中 ， 应 该 能 够 任意 排 


除 一 个 数据 ， 统 计 结果 不 会 因 之 发 生 显著 变化 。 这 是 你 寻找 离 群 值 时 
必须 考虑 到 的 。 


1. Conwood Company was purchased by Reynolds American, Inc., and changed its name to 
American Snuff Company, LLC, effective January 1, 2010. 


2. You can read more about the case here: Benjamin Klein and Joshua D. Wright," Antitrust 
Analysis of Category Management: Conwood v. United States Tobacco," November 10, 2006, 
http://www. justice.gov/sites/default/files/at/legacy/2006/12/01/219951.pdf. 


3. Herbert Hovenkamp, The Antitrust Enterprise: Principle and Execution (Cambridge,MA: 
Harvard University Press, 2008), 81. 


4. Hovenkamp, The Antitrust Enterprise, 81. 


你 是 否 比 一 般 人 更 为 优秀 


一 般 美 国人 有 以 下 特点 : 


每 天 睡眠 时 间 超 过 8.7 个 小 时 。 人 四) 
体重 约 为 82 千 克 (男性 89 千 克 ， 女 性 75 千 克 ) 9) 
每 年 喝 20.8 加 仑 (79 升 ) MEE (5) 


EET 21688 TK (希望 不 是 在 喝 了 那么 多 啤酒 之 后 开 的 ) 。 


一 周 淋浴 6 次 ， 但 只 洗 4 次 头 。 包 


当下 的 工作 已 经 做 了 4.6 年 。 包 | 


所 以 ， 你 比 一 般 人 更 优秀 吗 ? 如 果 有 人 告诉 你 ， 美 国有 55% 的 人 
认为 自己 比 一 般 人 更 聪明 ( 央 ， 而 且 大 多 数 人 觉得 自己 比 一 般 人 颜 值 更 
高 四 ， 而 且 最 近 一 项 研究 表明 ， 有 93% 的 人 说 自己 比 中 等 水 平 司机 开 
车 开 得 更 好 全 ， 你 会 感到 惊奇 吗 ? 也 许 加 里 森 凯 勒 在 描述 乌 比 网 湖 的 
We VIPERA UD ne eee 
常人 。” 


从 统计 学 上 讲 ，93% 的 司机 水 平 都 超过 中 等 水 平 是 可 能 的 。 中 等 
水 平 从 定义 上 讲 是 你 数据 中 的 中 位 数 。 但 这 项 研究 并 没有 说 93% 的 美 
国 司 机 开车 水 平 较 高 。 仅 仅 说 有 93% 的 司机 认为 自己 开车 水 平 较 高 。 


我 们 在 这 里 看 到 的 很 可 能 就 是 虚幻 优越 感 的 一 个 例子 。 所 谓 虚 幻 
优越 感 是 一 种 能 够 解释 为 何 大 多 数 人 觉得 自己 优 于 其 他 人 ， 即 优 于 一 
AA AOU FUSE © 


这 个 问题 为 什么 重要 ? 


如 有 果 你 觉得 目 己 比 普 通 司机 开车 开 得 好 ， 你 是 否 会 凭借 目 己 的 “车 
拉 ” 稀 车 或 做 其 他 危险 的 事 ? 


如 有 果 你 党 得 目 己 赌博 水 平 比 一 般 人 水 平 高 ， 会 不 会 在 牌 保 前 辟 留 
EA 《下 更 大 有 拘 注 ) ? 


如 果 你 觉得 自己 比 一 般 人 更 聪明 ， 你 会 不 会 应 聘 超出 自己 能 力 范 
围 的 工作 ? ”( 男 性 朋友 们 ， 把 头 抬 起 来 一 和 女性 相 比 ， 男 性 会 更 倾 
向 于 高 估 自 己 的 智力 水 平 。) 69 


你 能 够 成 为 世界 上 最 优秀 的 统计 学 家 ， 但 如 末 你 没有 捕 提 到 这 些 
认 知 偏差 ， 那 你 解读 数据 的 能 力 会 因 之 受到 影响 。 


1. American Time Use Survey, Bureau of Labor Statistics website, last modified September 
30, 2014, http://www.bls.gov/tus/charts/sleep.htm. 
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Christopher Ingraham, “The Average American Woman Now Weighs As Much As the 
Average 1960s Man,” Washington Post | Wonkblog, June 12, 2015, 
http://www.washingtonpost.com/news/wonkblog/wp/2015/06/12/look-at- how- much- weight- 
weve- gained- since- the- 1960s/. 
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“By the Numbers: What Americans Drink in a Year,” Huffington Pos website,June 27, 
2011, http://www.huffingtonpost.com/2011/06/27 americans- soda- beer n 885340.html. 


4. Nicholas Carlson, *If You Drive Fewer Than 9,480 Miles per Year, It's Cheaper to Take 
an Uber Everywhere Than to Own a Car," Business Insider website, September 17,2014, 
http://www. businessinsider.com/is- uber- cheaper- than- owning-a- car- 2014-9. 


5. Grace Gold, “Do Americans Shower More or Less Than the Rest of the World?," Yahoo! 
Health website, February 20, 2015, https://www.yahoo.com/health/do- americans- shower- 
more-or- less- than- the- rest-of-111508762932.html. 


6. Employee Tenure in 2014, Bureau of Labor Statistics website, September 18,2014, 


http://www.bls.gov/news.release/tenure.nr0.htm. 


7. Paul Ausick, “Most Americans Are Smarter Than the Average American,"24/7 Wall 
Street website, May 18, 2014, http://247wallst.com/economy/2014/05/18/ most- americans- 
are- smarter- than- the- average- american/. 


8. Melissa Dahl, “Most of Us Think We’re Hotter Than Average, Survey Says,” NBC News 
website, September 8, 2010,  http;//www.nbcnews.com/id/39044399/ns/ health- 
skin_and_beauty/t/most-us- think- were- hotter- average- survey- says/#.VcO_OflViko. 


9. Ola Svenson, “Are We All Less Risky and More Skillful Than Our Fellow Drivers?,” 
Acta Psychologica 47, no. 2 (February 1981): 143- 148. 


10. “Podcast? A Prairie Home (Companion website, accessed September 1, 
2015,http://prairiehome.org/listen/podcast/. 


11. If you want to learn more about these biases, pick up a copy of Daniel Kahneman’s 
Thinking, Fast and Slow (New York: Farrar, Straus and Giroux, 2013). 


12. Adrian Furnham, Joanna Moutafi, and Thomas Chamorro- Premuzic, “Personality and 
Intelligence: Gender, the Big Five, Self- Estimated and Psychometric Intelligence," 
International Journal of Selection and Assessment 13 (March 4,2005): 11— 24, doi: 10.1111/j. 
0965- 075X.2005.00296.x. 


如 何 成 熟 对 待 数据 总 和 、 平 均值 、 离 群 什 


有 没有 做 好 准备 使 用 数据 总 和 、 平 均值 、 离 群 值 来 做 更 好 的 决 
E? 这 儿 有 5 件 事 ， 你 现在 束 能 做 : 


第 一 ， 了 解 什么 是 概括 统计 ， 什 么 不 是 。 很 多 人 觉得 因为 概括 统 
计 能 够 反映 一 组 数据 ， 那 它 就 能 够 反映 出 数据 的 一 切 。 其 实 并 非 如 
此 。 概 括 统计 仅仅 是 一 个 标准 ， 仅 仅 从 一 个 维度 衡量 数据 组 。 殉 像 我 
们 看 到 的 红色 州 和 蓝 色 州 的 例子 ， 概 括 统 计 会 掩盖 基本 数据 的 不 同 
点 o 


第 二 ， 理 解 所 呈现 的 是 哪 一 种 平均 一 一 是 平均 值 ， 是 中 位 
数 ， 还 是 众 数 。 大 多 数 人 听 到 了 “平均 ”两 字 ， 会 认为 讲 的 是 平均 
值 ， 但 并 非 总 是 这 样 。 有 三 种 平均 ， 而 且 各 不 相同 。 其 中 有 一 些 更 容 
易 产 生 俩 离 。 比 如 ， 基 于 平均 值 ， 世 界 上 平均 每 人 有 人 少 于 两 条 手臂 。 

(大 多 数 人 有 两 条 手臂 ， 但 有 些 人 只 有 一 条 ， 有 些 人 没有 手臂 ， 因 此 
平均 值 吏 被 拉 下 来 了 ， 假 定 只 有 非常 少 的 人 有 超过 两 条 手臂 。) 当 有 
人 说 到 了 平均 ， 你 要 知道 目 己 讨论 的 到 底 是 哪个 概念 。 


第 三 ， 试问 “什么 的 平均 数 ? ”因为 平均 值 里 兼 有 多 个 数据 值 ， 
每 个 数据 值 都 会 影响 到 最 终结 果 。 这 便 是 你 可 以 运用 所 有 在 这 本 书 中 
学 习 到 知识 的 时 候 。 数 据 是 否 体现 了 样本 ? 你 是 在 看 平均 数 的 平均 数 
吗 ， 每 一 个 平均 数 是 否 都 有 自己 的 特性 ? 除了 这 些 问题 ,还 有 很 多 问 
题 需要 问 。 


第 四 ， 看 是 否 所 有 数据 都 被 乎 等 对 待 。 有 些 平均 数 只 是 加 权 
平均 数 ， 在 这 种 平均 数 的 计算 过 程 中 ， 有 些 数据 被 赋予 了 更 大 的 权 
重 。 比 如 ， 有 些 选 举 计 票 使 用 了 加 权 取 平均 数 ， 以 此 来 反映 到 达 投 票 


年 龄 的 成 年 人 的 真实 人 数 。 如 有 果 使 用 正确 的 话 ， 加 权 取 平均 数 是 一 个 
可 行 的 统计 学 工具 ， 但 是 你 必须 知道 加 权 是 否 存在 以 及 加 权 的 方式 ， 
从 而 让 目 己 成 为 成 熟 的 数据 接收 者 。 


第 五 ， 辩 别离 群 值 ， 并 理解 离 群 值 给 平均 数 带 来 的 影响 。 
有 些 离 群 值 是 数据 组 中 完全 有 效 的 组 成 部 分 。 其 他 时 候 ， 应 当 排除 极 
端 数值 以 得 出 你 所 问 问题 的 正确 答案 。 常 言 道 ， 一 粒 老鼠 屎 坏 了 一 锅 
粥 。 并 非 每 个 离 群 值 都 是 老鼠 尿 但 你 必须 注意 ， 离 群 值 会 使 结论 
RERE SD 


1. Okay, so this isn't a perfect comparison. A rotten apple literally spoils the bunch by 
emitting ethylene, a gas that makes the fruit around it ripen more. An outlier doesn't typically 
change the data around it— it simply affects the conclusions that you draw from that data. But 
even though the mechanisms differ, the point is the same— one apple/outlier can change the 
results. 


第 四 章 使 用 苹果 手机 的 人 更 聪明 ? 正确 理解 天 联 
性 和 因 采 性 


任何 一 个 注重 脸面 的 家 长 都 会 告诉 你 ， 想 要 让 小 孩子 在 班 上 出 类 
拔 茜 ， 得 对 其 施加 很 大 压力 才 行 。 


这 束 是 为 什么 我 们 会 让 孩子 参加 智力 测试 ， 早 早 地 束 让 他 们 参加 
培训 班 在 世界 范围 内 ， 考 前 辅导 、 培 训 、 咨 询 这 一 块 的 市 场 价值 超 
过 540 亿 美元 ) (四 ， 并 给 他 们 报 任何 能 够 想象 得 到 的 培训 项 目 。 


结 打 显示 ， 我 们 完全 可 以 省 下 这 笔 钱 和 时 间 的 。 因 为 我 们 做 过 人 研 
完 一 一 现在 ， 我 们 来 告诉 你 如 何 让 你 家 小 孩 变 得 更 聪明 。 


最 新 数据 显示 ， 聪 明 人 拥有 以 下 特点 : 
戴 眼 镜 。 (美国 在 线 ) © 

使 用 苹果 手机 。 (美国 有 线 电视 新 闻 网 ) © 
是 共和 党 人 。 ( 皮 尤 研究 中 心 ) © 

听 电 台 司令 的 歌 。 (《 华 尔 街 周刊 》) © 
睡 得 晚 。 (《 时 尚 先生 》) © 
AMT > (《 纽 约 客 》) © 


较 能 喝酒 。 (《 今 日 心理 学 》) © 


以 上 每 一 项 特征 都 被 引用 ， 认 为 其 与 智力 有 着 特殊 的 联系 。 因 此 
如 条 你 真 的 想 要 在 目 家 厅 型 旅行 车 上 贴 上 一 张 “ 优 等 生 采 誉 之 家 ”的 贴 
纸 ， 显 然 你 需要 做 的 吏 是 给 你 家 孩子 配 一 副 眼 镜 ， 天 一 个 苹果 手机 ， 
让 他 们 看 几 部 罗 纳 德 :里 根 的 演讲 ， 放 几 首 电台 司令 的 歌 ， 半 夜 前 别 让 
他 们 睡觉 ， 让 他 们 用 左手 做 事 ， 并 且 开 始 学 喝酒 (当然 ， 要 等 他 们 到 
能 喝酒 年 龄 才 行 ) 。 


RITEM T? 


没有 。 我 们 只 是 阅读 了 很 多 经 过 统计 分 析 ， 却 似乎 得 出 错误 结论 
的 研究 以 及 媒体 报道 。 尤 其 是 一 些 将 关联 性 和 因果 性 搞 混 的 报道 和 文 
章 ， 这 些 文 草 有 时 候 会 潜移默化 地 将 读者 误导 到 错误 的 结论 上 。 


有 必要 指出 上 面 的 结论 有 两 个 问题 : 第 一 ， 有 一 些 原 始 的 科学 研 
完 有 时 候 会 将 关联 性 和 因 末 性 搞 混 。 但 你 在 日 常生 活 中 比较 可 能 碰 到 
的 是 报纸 上 的 文章 和 其 他 媒体 以 错误 的 方式 报道 可 信 的 科学 研究 发 
He KM MMAR, REMA D HAO ZI AAR 
性 ， 尽 管 基础 研究 报告 上 标明 那个 发 现 和 所 导致 的 结果 仅仅 具有 关联 
TE 


从 统计 学 角度 ， 我 们 能 够 找到 两 件 事 之 间 千 丝 万 缕 的 联系 ， 比 如 
戴 眼 镜 和 高 智商 之 间 的 联系 。 这 类 联系 一 数据 间 存 在 的 某 种 关系 
称 为 关联 性 。 然 而 ， 我 们 将 用 这 章 内 容 继续 讨论 仅仅 存在 这 类 统 
计 学 上 两 个 事情 之 间 的 关系 ， 并 不 能 表示 两 者 之 间 存 在 真实 的 、 有 意 
义 的 联系 。 关 联 性 和 因果 性 不 同 。 这 实际 上 是 人 们 解读 数据 时 犯 的 最 
和 见 错误 。 但 是 别 担心 一 一 在 这 一 章节 中 ， 我 们 会 深 入 研究 人 们 是 如 
何 将 关联 性 误 认 为 是 因果 性 的 ， 以 及 人 们 为 什么 会 犯 这 个 错误 ， 接 着 
提供 给 你 一 个 工具 ， 来 帮助 你 认识 哪 种 小 数据 才 是 需要 相信 的 。 


1. GSV EDU, Education Sector Factbook 2012, accessed April 21, 2015, 
http://gsvadvisors.com/wordpress/wp-content/uploads/2012/04/ GSV- EDU- Factbook- Apr- 


13-2012.pdf. 
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Maria Konnikova, “Sinister Minds: Are Left- Handed People Smarter?"New Yorker 
website, August 22, 2013, http://www.newyorker.com/tech/elements/ sinister- minds- are- left- 
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Satoshi Kanazawa, “Why Intelligent People Drink More Alcohol,” Psychology Today 
website, posted on October 10, 2010, in the Scientific 
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智能 手机 = 聪明 人 ? 


现在 ， 我 们 回 到 智能 手机 这 个 问题 的 分 机 上 。 我 们 来 进一步 挖掘 
一 下 那 份 研究 真正 想 表 达 什 么 ， 并 揭示 一 些 有 趣 的 解释 、 和 警告 、 
实 ， 从 而 能 够 对 人 研究 成 果 多 一 些 了 解 。 


我 们 先 从 研究 苹果 手机 开始 ， 这 份 研 究 调查 了 美国 每 一 个 州 的 苹 
果 手 机 使 用 量 和 持 有 学 士 学 位 (及 其 他 情况 ) 人 口 的 比例 ， 发 现 * 苹 果 
手机 使 用 率 和 教育 水 平 呈 正 相 关 ”。 人 汗 ) 


但 这 一 切 仅 仅 表明 苹果 手机 使 用 率 最 高 的 州 正 是 持 有 学 士 学 位 人 
口 比 例 最 高 的 州 而 已 ， 电 并 不 意味 着 你 使 用 苹果 手机 就 更 聪明 。 


关联 性 不 过 是 一 种 双 变 量 天 系 一 一 通俗 地 说 ， 即 两 个 变量 之 间 存 
在 的 关系 。 双 变量 关系 并 不 能 证 明 其 中 一 件 事 导致 男 一 件 事 发 生 。 试 
着 从 这 个 角度 来 想 ， 你 能 够 观察 到 两 件 事 从 统计 学 角度 看 上 去 互相 关 
联 ， 但 这 并 不 能 回答 任何 你 所 关心 的 问题 一 一 关系 为 什么 存在 ， 对 于 
数据 接收 者 来 说 ， 这 种 关系 义 意味 着 什么 。 


有 许多 原因 可 以 解释 为 什么 这 种 可 见 的 关系 并 非 因果 关系 。 比 
如 ， 如 有 宁 你 研究 一 下 戴 眼 镜 的 人 比较 聪明 这 一 论点 ， 你 会 发 现 原始 研 
究 实际 上 是 在 描述 读书 时 间 长 短 和 近视 之 间 的 关联 。 人 所 暂时 ， 我 们 假 
定 读书 时 间 长 的 确 意味 着 你 比较 聪明 (这 个 假设 要 打上 一 个 大 问号 ， 
而 且 和 这 项 研究 没有 什么 关系 ) 。 该 研究 从 未 说 比较 聪明 的 人 会 戴 眼 
镜 ， 而 是 指明 了 在 学 校 上 学 时 间 较 长 和 视力 好 坏 的 关系 。 这 个 区 别 很 
大 ， 而 且 这 两 者 只 是 互相 关联 。 标 题 沈 为 了 吸引 你 注意 力 ， 把 重点 放 
到 了 视力 和 智力 的 关系 上 ， 而 研究 所 得 出 的 结论 则 比较 慎重 一 一 结论 
所 反映 的 问题 也 大 不 相同 。 比 如 ， 人 研究 中 两 个 因素 的 因果 关系 也 许 恰 


恰 相 反 一 一 在 学 校 时 间 过 长 可 能 引起 双眼 紧张 程度 上 升 ， 从 而 导致 近 
视 ， 而 近视 可 以 用 眼镜 来 矫正 。 


那 睡觉 晚 的 人 比较 聪明 这 一 观点 是 否 准 确 呢 ? 嗯 ， 根 据 原始 研究 
论文 ， 智 商 最 低 的 一 组 人 平均 睡觉 时 间 为 晚上 11 点 41 分 ， 而 智商 最 高 
的 一 组 人 睡觉 时 间 为 晚上 12 点 29 分 。( 岂 这 篇 论文 进行 了 数 个 统计 学 分 
析 ， 发 现 高 智商 的 人 之 所 以 晚 睡觉 ， 与 其 种 族 、 年 龄 、 性 别 、 婚 姻 状 
况 、 父 母 状况 、 教 育 、 收 入、 信仰 、 工 作 时 间 的 不 同 都 有 关系 。 在 这 
种 情况 下 ， 统 计 分 析 很 明显 涉及 不 止 一 对 双 变 量 关系 。 尽 管 如 此 ， 许 
多 统计 学 家 依然 不 会 认为 其 中 存在 因果 关系 ， 而 认为 其 中 存在 较为 复 
杂 的 关联 性 。 尽 管 这 项 分 析 研究 依然 没有 清楚 地 显示 晚 睡 会 导致 高 知 
商 。 和 之 前 一 样 ， 这 种 关联 性 可 能 是 颠倒 的 。 换 句 话说 ， 一 个 人 脑袋 
聪明 可 能 导致 其 晚 睡 。 是 不 是 高 智商 的 人 就 更 容易 晚 睡 ， 因 为 他 们 要 
做 功课 ， 并 且 看 书 看 到 很 晚 ? 你 可 能 会 看 到 同样 的 统计 学 关系 ， 但 这 
种 关系 中 的 因果 关系 实际 上 是 相反 的 。 


概括 一 下 ， 如 果 你 想 让 你 的 孩子 变 得 聪明 ， 不 一 定 要 给 他 们 配 眼 
镜 ， 或 给 他 们 买 苹果 手机 。 


现在 ， 我 们 给 你 节省 了 一 部 智能 手机 的 钱 ， 我 们 继续 .…… 


1. "Infographic: iPhone Usage Rates by State," Chitika, Inc. website, January 22,2015, 
https://chitika.com/insights/2015/iphone-by-state. 


2. Assuming the sampling was done correctly, which we would probably question given that 
they only sampled people during one week of the year— which also happened to be the week 
of Christmas. 


3. “People Who Wear Glasses,” AOL. 


4. Satoshi Kanazawa and Kaja Perina, “Why Night Owls Are More Intelligent,"Personality 
and Individual Differences 47 (2009): 685- 690, 
https://personal.lse.ac.uk/kanazawa/pdfs/paid2009.pdf. 


星巴克 旁边 的 房子 升值 更 快 ? 


人 们 不 仅仅 想 变 聪明 。 人 们 想 变 得 更 幸福 、 更 健康 、 更 富有 ..…… 


因此 ， 你 会 看 到 这 样 的 标题 党 一 摘自 《商业 内 幕 》 一 “如 果 你 
在 上 下 班 路 上 花费 超过 45 分 钟 时 间 ， 那 你 的 婚姻 可 能 会 破裂 ”。[ 国 ) 


或 者 这 样 的 新 闻 标 题 一 摘 目 网 站 EliteDaily.com 一 一 “ 裸 睡 才能 
大 大 的 梦想 : 为 何 提高 生活 质量 的 秘诀 如 此 简单 ， 简 单 到 只 要 把 衣服 
BET BMA” o © 


或 者 这 样 的 新 闻 标 题 
让 你 的 房子 升值 ”。 6 


我 们 很 愿意 住 在 星巴克 旁边 ， 但 不 是 因为 星巴克 让 房子 升值 ， 因 
为 这 篇 文章 并 没有 证 实 这 一 点 。 

文章 数据 显示 星巴克 附近 的 房子 5 年 间 升值 幅度 超过 20%， 而 离 得 
稍 远 的 房子 只 升值 不 到 17%。( 轩 我 们 并 不 是 想 对 这 些 数据 提出 异议 ， 
但 我 们 质疑 “星巴克 让 房子 升值 > 这 一 论点 。 人 四) 


可 能 吏 因 为 星巴克 把 店 开 在 了 城镇 、 乡 村 的 中 心 
价 上 升 的 速度 较 快 。 


例如 ， 星 巴克 创意 总 监 兼 全 球 创新 发 展 新 型 零售 部 总 裁 (前 不 动 
产 总 监 ) 亚 瑟 . 鲁 宾 菲 尔 德 写 过 一 本 书 ， 介 绍 特许 经 营 人 如 何在 每 天 的 
工作 中 学 习 星巴克 选 址 的 经 验 ， 他 的 秘诀 中 有 一 条 便 是 在 停车 场 寻 找 
油渍 (车 流量 大 的 标志 ) £09 


摘 目 《人 物 》 一 一 “ 住 在 星巴克 旁边 能 够 


这 些 地 区 房 


Hite nen ese a Amie, "mA EXTRA 
ERHAN » UTERE ERM, FARRA- AER A 6 这 些 
都 是 让 房地产 价格 上 升 的 因素 。 


我 们 不 知道 具体 原因 。 而 这 束 古 关键 所 在 。 


1. Kim Bhasin, *If Your Commute Lasts More Than 45 Minutes, You Will Probably Get 
Divorced,” Business Insider website, June 2, 2011, http:;//www.business insider.com/ long- 


commutes- can- cause- divorce2011-6 accessed 4/21/15. 


2. Lauren Martin, *Sleep Naked, Dream Bigger: Why the Secret to a Better Life Is As 
Simple As Taking It Off," Elite Daily website, August 18, 2014, http://elite daily.com/life/ 
gotta- free- sleep- free- people- sleep- naked- happier/715351/. 


3. Morgan Gibson, “Living Near a Starbucks Will Increase Your Home's Value,” People’s 
“Great Ideas" website, January 29, 2015, http://greatideas.people.com/2015/01/29/ starbucks- 
increases- home- value/?xid-socialflow twitter peoplemag. 


4. Spencer Rascoff and Stan Humphries, “Confirmed: Starbucks Knows the Next Hot 
Neighborhood Before Everybody Else Does,” Quartz website, January 28, 2015, 
http://qz.com/334269/ what- starbucks- has- done-to- american- homevalues/. 


5. Rascoff and Humphries, *Confirmed. 


6. John Moore, *Starbucks Real Estate Learnings," Brand Autopsy blog, May 19,2005, 
http://www.brandautopsy.com/2005/05/starbucks real .html; Rubinfeld's book is Built for 
Growth: Expanding Your Business Around the Corner or Across the Globe (FT Press, 2005). 


还 有 什么 因素 可 以 解释 这 件 事 ? 


上 面 所 有 因素 一 一 市 中 心 、 人 行道 、 苹 果 商 店 一 一 有 可 能 是 遗漏 
变量 。 遗 漏 变量 是 造成 关联 性 和 因 采 性 不 同 的 主要 原因 之 一 。 


还 记得 我 们 讨论 过 的 双 变 量 关 系 ， 即 两 个 变量 之 间 的 关系 吗 ? 问 
题 在 于 很 多 时 候 变 量 不 止 两 个 。 你 掌握 了 两 个 变量 之 间 的 关系 (又 称 
依存 关系 ) ， 但 实际 上 却 有 第 三 个 至 关 重 要 的 变量 被 遗漏 了 。 这 个 变 


量 即 遗 漏 变 量 。 (是 的 ， 也 可 能 存在 多 个 遗漏 变量 。) 


星巴克 十 否 让 你 的 房子 升值 ? 或 者 这 只 是 其 中 一 个 因素 一 一 从 理 
论 上 来 讲 ， 这 些 因素 都 会 影响 到 你 房子 的 价格 ? 


有 可 能 星巴克 的 确 让 你 的 房子 升值 。 也 可 能 星 巴 殉 只 征 其 他 因素 
(人 行道 等 ) 的 代理 。 在 这 个 情况 下 ， 代 理 即 你 认为 与 其 他 因素 紧密 
相关 但 不 相同 的 因素 。 比 如 ， 智 商 测试 仅仅 是 人 内 在 能 力 的 代理 。 这 
样 的 测试 元 法 衡量 你 真正 的 能 力 ， 能 够 衡量 的 只 是 你 考试 的 能 力 ， 而 
这 样 的 能 力 被 认为 能 够 衡量 智力 。 有 了 时候 代理 被 (有意 无 意 地 ) 用 来 
补偿 一 个 遗漏 变量 。 有 代理 总 比 什 么 部 没有 来 得 好 ， 但 很 明显 代理 并 
不 能 代替 真实 数据 。 


从 星巴克 的 例子 中 ， 我 们 了 解 到 有 两 组 变量 之 间 存 在 关系 。 但 我 
们 不 知道 是 否 存 在 遗漏 变量 。 在 存在 遗漏 变量 的 情况 下 ， 你 不 可 能 知 
道 目 己 是 否 已 挑 拣 出 所 有 有 意义 的 关系 ， 掌 握 了 一 切 能 够 影响 结果 的 
因素 。 有 数 不 请 的 实证 经 济 学 家 穷尽 其 整个 职业 生涯 都 在 研究 遗漏 变 


里 ” 


只 要 问 一 个 人 简单 的 问题 一 “还 有 什么 因素 可 以 解释 这 件 事 ? ”， 
于 是 你 便 可 以 一 路 寻找 遗漏 变量 了 。 (有 一 件 有 趣 的 事 ， 和 实验 数据 
相 比 ， 观 测 数据 中 的 遗漏 变量 需要 人 们 多 留 个 心 眠 。 换 句 话 说， 如 采 
你 观察 两 个 已 经 存在 的 数据 一 一 如 房价 和 星巴克 门店 位 置 ， 你 可 能 不 
会 意识 到 其 他 影响 它们 的 变量 。 但 如 果 你 是 在 做 实验 一 一 比如 观察 研 
究 生 在 实验 室 环 境 下 对 交 励 的 回应 一 一 你 可 以 设计 实验 ， 从 而 控制 可 
能 出 现 的 遗漏 变量 。) 


最 终 ， 你 研究 关联 性 的 时 候 ， 要 记 住 变量 可 能 存在 正 相 关 或 负 相 
天 。 你 可 以 将 其 简单 地 理解 成 两 个 东西 朝 同 一 个 方向 移动 ， 或 朝 相 反 
方 同 移动 。 正 相关 : 星巴克 的 出 现 使 得 房价 上 升 。 一 个 因素 上 升 ， 田 
一 个 因素 也 随 之 上 升 。 负 相关 与 此 不 同 : 你 后 院 中 灯草 太 多 ， 导 致 房 
屋 价格 下 降 。 在 这 种 情况 下 ， 一 个 因素 上 升 ， 男 一 个 因素 下 降 。 在 几 
平 所 有 的 统计 学 关系 中 ， 我 们 关心 的 就 古方 向。 如 果 我 们 发 现 星巴克 
开 在 你 家 的 周围 ， 你 家 的 房价 下 降 了 ， 那 我 们 不 会 得 出 星巴克 与 你 家 
房价 有 关 的 结论 。 


我 们 检 难 关联 性 的 另 一 个 方法 是 看 符 不 符合 你 对 于 经 济 学 的 直 
觉 。 比 如 ， 如 采 你 看 到 一 项 研究 显示 毒贩 人 数 和 房价 呈正 相关 一 一 换 
句 话 说 ， 毒 贩 人 数 越 多 ， 房 价 越 高 ， 我 们 马上 就 会 怀疑 ®( 数 据 ， 还 有 
SER) 。 试 着 分 辨 不 同 种 类 的 关联 性 会 有 助 于 你 辨别 其 是 否 确实 是 因 
果 天 系 一 一 以 及 遗漏 变量 是 什么 。 


我 们 有 没有 让 你 们 觉得 无 聊 ? 


约翰 先前 当 大 学 教授 的 时 候 ， 在 期 末 评 教 时 得 到 了 比较 公正 的 分 
数 ， 随 之 他 对 本 : 施 密 特 教 授 的 性 别 与 评 教 网 产生 了 兴趣 。 这 个 网 站 
上 ， 用 户 可 以 输入 任意 字 词 ， 然 后 看 这 个 字 词 在 “给 我 的 教授 打分 ”的 
评论 中 出 现 多 少 次 。 该 网 站 对 超过 20 个 学 科 的 男女 教授 进行 评价 。 

(如 果 你 登录 benschmidt.org/profGender/# 网 站 ， 便 可 以 杀身 体验 。) 


从 数据 角度 看 ， 性 别 差 异 非常 有 趣 。 例 如， 要 是 我 们 在 本 - 施 密 特 
教授 的 网 站 输入 “无 聊 ” 一 词 ， 会 看 到 一 个 图 表 ， 显 示 在 大 多 数学 科 
中 ， 男 教授 和 女 教 授 相 比 ， 被 冠 之 以 “无 聊 ” 的 人 数 更 多 。 在 工程 学 领 
域 ， 女 教授 被 形容 为 "能力 不 够 ”的 次 数 为 每 百 万 字 18 次 多 一 点 ， 而 男 
教授 得 到 类 似 形容 的 只 有 每 百 万 字 12 次 。 

不 过 如 果 我 们 想 要 从 一 个 关键 的 角度 了 解 不 同 点 (比如 老师 的 性 
别 是 否 影响 他 /她 被 学 生 形容 为 “无 聊 ”) ， 我 们 就 要 考虑 我 们 观察 的 关 
系 古 否 包 仿 了 全 部 ， 或 是 否 有 其 他 与 此 相对 的 因素 能 够 解释 我 们 所 观 
察 到 的 现象 。 


在 这 个 例子 中 ， 想 要 看 出 学 生 是 否 会 因为 老师 性 别 而 给 出 不 同 评 
价 ， 我 们 必须 确保 从 一 切 重要 的 维度 来 对 相同 的 教授 进行 比较 。 


你 应 该 能 预想 得 到 ， 学 生 在 给 予 教授 主观 评价 的 时 候 会 受 一 系列 
因素 影响 。 下 面 举 儿 个 例子 : 


课堂 和 科目 学 习 材料 有 多 难 ? 
学 生 这 门 课 的 成 绩 得 了 A 吗 ? 


这 门 课 布置 了 多 少 家 庭 作业 ? 
这 门 课 的 上 课时 间 是 不 是 学 生 讨厌 的 (如 周 五 早上 8 点 上 课 ) ? 
教授 是 否 平易 近 人 ? 


这 门 课 是 一 门 入 门 课程 ， 还 是 一 门 必修 课 ， 或 是 一 门 选修 课 ? 


现在 ,虽然 有 学 生 在 评 教 的 时 候 最 终 会 受到 一 系列 因素 影响 这 一 
事实 ， 但 这 一 事实 并 不 足以 得 出 结论 。 重 要 的 问题 是 这 些 “ 其 他 因 
素 "十 否 都 会 因 性 别 不 同 而 不 同 。 换 句 话 说， 是否 不 同性 别 的 教授 收 到 
明显 不 同 的 评价 ， 在 这 些 其 他 因素 所 描绘 的 情况 下 也 一 一 符合 ? 


举 一 个 极 问 的 例子 : 假定 在 数学 系 ， 女 教授 总 被 安排 去 教 难度 较 
大 的 微 积分 必修 课 ， 而 男 教 授 被 安排 去 教 非常 受 欢迎 的 统计 学 选修 
课 。 如 来 我 们 观察 到 对 女 教 授 的 评 教 情况 非常 不 好 ， 那 很 可 能 仅仅 因 
为 女 教授 被 不 均衡 地 安排 去 教 又 难 又 不 受 欢 迎 的 课 ， 而 学 生 会 更 倾向 
于 在 结 课 评 教 的 时 候 给 出 负面 评价 。 


这 个 简单 的 例子 并 非 想 要 证 明 学 生 给 教授 评 教 的 不 同 并 非 出 于 教 
授 的 性 别 ， 但 我 们 肯定 可 以 说 ， 基 于 这 些 能 够 观测 出 来 的 位 单 差别 ， 
从 统计 学 的 角度 并 不 能 得 出 以 上 结论 。 要 确定 评 教 和 性 别 之 间 的 真实 
关系 ， 还 需要 做 更 多 工作 。 


为 什么 重要 
如 条 你 想 知道 数据 是 如 何 影响 你 的 生活 的 ， 仅 仅 知道 两 个 变量 之 
间 的 统计 学 关系 是 不 够 的 。 我 们 真正 关心 的 问题 是 : 


如 条 你 看 到 两 个 变量 之 间 存 在 关系 ， 这 样 的 关系 是 有 意义 的 真实 
关系 ， 还 是 只 是 由 于 某 些 原因 而 存在 的 虚假 关系 ? 


虚假 关系 的 存在 有 很 多 原因 ， 不 过 和 遗漏 变量 肯定 征 导 致 这 种 关系 
营 见 的 原因 。 导 找 因 采 关系 牵涉 到 我 们 生活 的 方方面面 。 


癌症 是 由 什么 引起 的 ? 


根据 《华盛顿 邮 报 》 的 一 篇 文章 的 说 法 ， 非 裔 和 西班牙 裔 美国 学 
生 相 对 来 说 不 会 被 界定 为 "有 天 赋 的 ”， 这 又 是 为 什么 ? 


Kit TE e d C? 


发 现 所 有 有 效 的 遗漏 变量 ， 寻 找 关 联 性 和 因 末 性 的 差别 ， 可 以 回 
答 数 不 清 的 问题 ， 上 面 的 问题 只 是 略 举 一 二 。 


1. Emma Brown, *How Does a Teacher's Race Affect Which Students Get to Be Identified 
As ‘Gifted? 7 Washington Post website, April 22, 2015, 
http://www. washingtonpost.com/news/local/wp/2015/04/22/ how- does-a- teachers- race- 
affect- which- students- get-to-be-identifie-as-gifted/. 


穿 耐 元 鞋 就 能 像 乔 丹 一 样 灌 饶 ? 


关联 性 对 于 市 场 人 员 和 媒体 来 说 ， 是 一 个 强 有 力 的 工具 ， 将 其 与 
人 们 淘 望 在 生活 的 每 一 个 方面 都 追求 更 快 、 更 强 、 更 聪明 、 更 性 感 这 
种 想法 相 结 合 ， 尤 其 如 此 。 


明星 代言 体现 的 都 是 关联 性 。 试 想 : 

迈克 尔 : 乔 丹 穿 耐 元 鞋 。 

XUI TT BERUS ° 
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我 们 目 己 检验 过 这 样 的 逻辑 ， 并 可 以 肯定 地 告诉 你 ， 这 样 的 逻辑 
征 不 正确 的 。 如 果 你 只 有 5 英 矿 6 英寸 (165 厘 米 ) 高 ， 就 算 你 把 迈 死 尔 


:乔丹 穿 过 的 所 有 球鞋 都 天 下 来 ， 依 然 可 能 连 篮 信 都 够 不 到 ， 灌 篮 更 是 
天 方 夜 谭 。 


你 不 是 迈 元 尔 : 乔 丹 。 遗 漏 变 量 一 一 如 他 的 吴 高 和 数 不 清 的 练习 时 
间 一 一 能 够 帮助 解释 为 什么 他 在 NBA 《美国 职业 篮球 联赛 ) 扣篮 大 赛 
中 获胜 ， 而 你 做 不 到 。 


某 物 对 某 个 明星 有 用 ， 并 不 意味 着 它 对 你 也 有 用 。 如 琳 认 为 有 
用 ， 那 就 犯 了 一 个 典型 的 把 关联 性 当成 因 末 性 的 错误 。 


再 举 男 一 个 典型 错误 的 例子 。 杰 弗 里 :布朗 是 经 济 学 家 、 伊 利 诺 伊 
大 学 商学 院 主任 。 在 我 们 采访 他 的 时 候 ， 他 给 我 们 举 了 一 个 例子 :“ 假 
设 每 个 周一 早晨 ， 你 的 狗 都 会 叫 。 几 分 钟 后 ， 收 垃 圾 的 车 到 了 “。 如 采 


据 此 就 认为 狗 叫 引 来 了 垃圾 车 ， 那 明显 是 错误 的 。 在 这 种 情况 下 ， 
果 关 系 可 能 是 相反 的 一 一 你 的 狗 比 你 更 早 听 到 了 垃圾 车 的 声音 。 很 少 

会 犯 扎 上面 的 例子 一 模 一 样 的 错误 ， 但 他 们 会 在 日 党 生活 的 其 他 情 
况 下 ， 在 做 决定 的 时 候 犯 类 似 的 错误 。” 


哪怕 你 有 较 多 的 数据 ， 在 很 多 情况 下 依然 会 碰 到 问题 。 比 如 ， 残 
像 布 朗 提 到 的 ， 你 可 以 化 上 10 年 观察 狗 叫 和 垃圾 车 的 关系 ， 但 依然 不 
能 证 明 是 狗 叫 引 来 了 垃圾 车 。 当 心 这 些 因 果 关 系 反 转 的 情况 ， 确 保 你 

` 会 仅仅 因为 事件 发 生 的 时 间 来 推断 其 因果 关系 。 


婴儿 、 洗 澡 水 和 波尔多 红酒 
经 济 学 家 艾 米 丽 : 欧 斯 特 怀孕 的 时 候 ， 和 其 他 准 妈妈 一 样 ， 她 想 知 
道 的 头 两 件 事 便 是 喝 多 少 咖啡 和 酒 才 是 安全 的 。 


她 不 想 从 朋友 和 邻居 那里 寻求 一 些 基于 传言 的 建议 ， 也 不 想 从 医 
生 那 里 获得 党 统 的 建议 。 她 想 要 的 不 是 关联 性 。 


不 过 这 确实 就 是 许多 建议 的 基础 。 例 如 ， 她 在 研究 咖啡 摄 入 量 和 
高 流产 率 之 间 的 关系 的 时 候 ， 发 现 了 喝 咖 啡 的 女性 和 不 喝 咖 啡 的 女性 
之 间 存 在 数 不 清 的 不 同 点 , “她 们 自身 的 不 同 可 能 导致 了 流产 率 的 不 
同 ”。( 轧 换 句 话说 ， 她 找到 了 遗漏 变量 。 


幸运 的 是 ， 作 为 经 济 学 家 ， 欧 斯 特 知道 如 何 理解 数字 。 她 不 仅仅 
听 医 生 的 建议 或 在 网 上 找 几 篇 文章 读 一 下 。 她 发 现 了 解 真实 情况 并 非 
易 事 。 她 最 终 亲 力 亲 为 翻阅 了 几 百 篇 钱 窜 报告 和 原始 研究 成 果 ， 而 不 
苹 仅 仅 看 别人 对 人 研究 的 解读 。 的 确 ， 她 在 怀孕 期 间 ， 侦 尔 会 喝酒 ， 
天 也 会 喝 上 三 四 杯 咖啡 。 


哪怕 你 接受 过 正确 解读 数据 的 训练 ， 而 且 做 起 来 挺 得 心 应 手 ， 但 
你 可 能 会 发 现 ， 寻 找事 实 会 消耗 大 量 的 时 间 和 精力 。 


IRE ET FRB TOA Sea, MPU HE, AEA HAL 
FERET EPE ^ RUE ete SB IL, PLE RIA BE EL 
百 个 小 时 分 析 数 据 来 证 明 几 组 变量 之 间 呈 现 的 是 关联 性 还 是 因 采 性 

(还 是 与 之 相反 ) 并 不 稀奇 。 我 们 不 是 在 吓 蜡 你 一 一 我 们 只 是 让 你 知 
道 挖 抉 到 事物 的 本 质 需 要 经 过 多 少 训练 ， 需 要 人 花 去 多 少 精力 。 从 我 们 
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经 能 够 让 你 领先 于 大 多 数 人 了 。 


1. Emily Oster, “Take Back Your Pregnancy,” Wall Street Journal website, August 9, 2013, 
http://www.wsj.com/news/articles/SB10001424127887323514 404578652091268307904. 


你 在 搜索 引擎 页 面 排 第 几 ? 


如 有 条 你 实在 没 办 法 辨别 出 和 遗 调 变 量 怎么 办 ? 


这 儿 有 个 例子 。 如 果 你 开 公 司 ， 要 是 你 公司 网 页 的 浏 哎 量 能 够 翻 
倍 ， 那 你 应 该 会 很 开心 吧 。 毕 竟 在 谷歌 上 排名 第 一 的 搜索 结 采 浏览 量 
几乎 是 排名 第 二 搜索 结果 的 两 倍 。( 思 根据 行业 不 同 ， 在 谷歌 搜索 结 
排名 上 只 要 上 升 一 位 ， 就 可 能 给 你 带 来 数 以 百 万 计 的 访问 者 。 


所 以 如 何 来 提高 排名 呢 ? 


根据 谷歌 的 说 法 ， 他 们 的 搜索 结果 演算 法 则 基于 “超过 200 种 独特 
的 信号 (或 称 为 线索 ) ， 从 而 狂想 用 户 真正 想 要 搜索 什么 ”。 (时 


问题 在 于 谷歌 并 没有 给 出 这 超过 200 种 独特 信号 的 详情 一 一 也 许 谷 
歌 不 想 因 此 疏失 其 竞争 优势 吧 。 


你 如 何 处 理 超过 200 个 遗漏 变量 ? 咽 ， 如 果 你 点 开 Moz.com 网 站 ， 
你 会 看 到 一 个 图 表 ， 上 面 显示 了 和 搜索 引擎 排名 相关 的 160 个 因素 。 
时 如 果 你 正在 寻找 提高 你 在 搜索 引 警 页 面 排名 的 方法 ， 那 你 会 发 现 这 
很 有 意思 ， 而 且 可 能 非常 有 用 。 


但 这 并 不 可 靠 ， 因 为 图 表 上 面 的 因素 大 多 基于 关联 性 而 得 出 。 什 
得 称赞 的 是 ， 在 Moz.com 网 页 上 ,，“ 关 联 性 ”一 词 被 使 用 了 12 次 。 人 时) 在 
一 篇 独立 的 博客 文章 中 ， 该 网 站 进一步 探讨 了 这 个 情况 ， 并 指出 “存在 
关联 性 的 数据 并 不 “〈 足 以 ) 能 够 给 我 们 指出 影响 排名 的 因素 ”。 


有 时 候 ， 你 驶 是 没 办 法 接触 到 遗漏 变量 。 也 许 数 据 不 对 公众 开 
放 ， 也 许 补 意外 毁坏 了 ， 或 者 也 许 从 一 开始 束 没 记录 在 和 案 。 在 这 些 情 
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牢记 一 句 话 ， 尽 管 你 所 运用 的 是 能 够 掌握 的 最 佳 数据 ， 但 想 要 证 明 因 
条 关系 依然 是 一 场 便 仗 。 


1. “The Value of Google Result Positioning,” Chitika website, June 7, 
2013,https://chitika.com/ google- positioning- value. 


2. “Algorithms,” Google website, accessed April 20, 2015, 
http://www.google.com/insidesearch/howsearchworks/algorithms.html. Here, you'll also find a 
link to “The Anatomy of a Large- Scale Hypertextual Web Search Engine,” in which Sergey 
Brin and Larry Page presented Google. 


3. “Search Engine Ranking Factors 2015,” Moz website, accessed September 1,2015, 


https://moz.com/ search- ranking- factors/correlations. 


4. “Search Engine Ranking Factors 2015, Expert Survey and Correlation Data,” Moz 
website, accessed September 1, 2015, https://moz.com/ search- ranking- factors/correlations. 


5. Rand Fishkin, *What Do Correlation Metrics Really Tell Us About Search Rankings?," 
Rand Fishkin Blog, Moz website, January 14, 2013, http://moz.com/rand/what-do- correlation- 


metrics- really- tell-us- about- search- rankings/. 


烤 奶 酷 的 性 福生 活 我 们 差点 儿 将 其 用 作 书 名 ) 


有 一 条 来 目 《 赫 分 顿 邮 报 》 的 新闻 标题 写 得 很 好 : “ 据 调 碍 显示 ， 
吃 烤 奶 酷 的 伴侣 做 爱 次 数 更 多 ， 性 格 也 更 好 。* 央 ( 比 标题 更 好 的 是 
网 址 ， 里 面 含有 “ 烤 奶 酷 、 做 爱 、 翻 云 履 十 "这 类 字眼 。) 


我 们 知道 你 在 想 些 什么 ;这 是 真 的 吗 ? 烤 奶 酷 真 的 那么 灵 ? © 


根据 文章 的 说 法 ， 调 查 显 示 ， 喜 欢 吃 烤 奶 酷 的 人 中 有 329% 每 个 月 
而 不 喜欢 吃 烤 奶酪 的 人 中 ， 只 有 27% 的 人 做 爱 能 达到 这 
频率 o 


哪怕 我 们 无 视 这 项 调查 的 其 他 丝 漏 《警惕 自 陈 式 数据 ) ， 也 能 够 
很 明显 地 看 出 ， 上 面 新 闻 讲 的 两 者 只 是 互相 关联 。 人 们 喜欢 吃 烤 奶 栈 
和 性 生活 存在 关系 ， 但 并 没有 证 据 表 明 这 两 件 事 存 在 因 采 关系 。 因 
此 ， 这 两 者 十 相互 天 联 一 一 而 非 互 为 因果 。 


有 一 种 说 法 ， 即 单纯 从 统计 学 角度 说 ， 你 无 法 仅 香 观 察 数据 就 断 
定 其 中 存在 因果 关系。 在 上 面 这 种 情况 中 ， 只 是 没有 足够 的 数据 证 明 
是 什么 导致 了 云雨 时 间 的 延长 。 会 不 会 还 真 就 是 拜 烤 奶 酷 三 明治 所 
赐 ? 当然 可 能 ， 但 也 可 能 会 有 上 百 万 个 其 他 的 变量 。 仅 仅 因 为 你 没有 
证 明 两 者 之 间 存 在 因果 关系 ， 不 能 说 明 两 者 之 间 就 不 是 因果 关系 。 


这 便 是 你 该 如 何 实践 可 靠 统计 。 


1. Kate Bratskeir, *Grilled Cheese Lovers Have More Sex and Are Better People, 
According to Survey," Huffington Pos website, April 8, 2015, 
http://www.huffingtonpost.com/2015/04/08/ grilled- cheese- sex- bow- chica- bow- 
wow_n_7027572.html. 


The *Cheddar Makes It Better" commercials from America's Dairy Farmers National 
Dairy Board were some of our favorites back in the day. You can see one here: 


https://www.youtube.com/watch?v- ypx8- 7bzL X8. 


加 利 福 尼 亚 的 阳光 和 美 属 萨摩 亚 岛 上 的 律师 


你 知道 加 利 福 尼 亚 的 阳光 和 美 属 院 摩 亚 岛 上 的 律师 数量 相关 吗 ? 
你 是 否 还 知道 全 美国 保龄球 饱 的 年 收入 和 人 均 酸奶 的 消耗 量 有 


这 些 只 是 我 们 在 虚假 关联 网 站 (tylervigen.com) 上 找到 的 虚假 
( 即 误导 性 ) 关联 例子 中 较为 好 玩 的 几 个 。 这 个 网 站 由 哈佛 法 学 院 的 
学 生 泰 勒 - 维 根 开设 。( 


虚假 关联 很 有 用 ， 因 为 可 以 凸显 出 遗漏 变量 的 存在 ， 并 描绘 出 将 
关联 等 同 于 因 采 会 导致 的 洪 在 危险 。 


我 们 询问 了 维 根 对 于 不 同类 型 的 虚假 关联 的 看 法 ， 以 及 人 们 如 何 
能 够 更 好 地 解读 它们 。“ 束 拿 那 个 老生 篆 谈 的 冰淇淋 销量 和 读 杀 率 紧 密 
相关 的 例子 来 说 吧 ，? 维 根 说 道 , “两 者 的 数量 都 会 在 夏天 上 升 。 其 中 
遗漏 变量 是 炎热 的 天 气 ， 而 这 样 的 天 气 会 提高 犯罪 率 是 有 事实 依据 
的 ， 而 且 这 样 的 天 气 也 会 让 人 人们 特别 想 吃 冰淇淋 。” 在 这 种 情况 下 ， 存 
在 着 虚假 关联 ， 因 为 存在 另 一 个 变量 (炎热 的 天 气 ) 只 是 人 们 在 
展示 冰淇淋 销量 和 讨 杀 率 的 时 候 将 其 遗漏 了 。 


但 这 儿 有 男 一 种 虚假 关联 。 我 们 来 看 一 下 加 利 福 尼 亚 的 阳光 和 美 
属 院 摩 亚 岛 上 的 律师 数量 的 关联 性 。“ 这 件 事 ，?” 维 根 解 释 道 , “不 仅仅 
征 两 者 间 没 有 明显 的 联系 ， 而 且 也 没有 明显 的 可 以 引起 这 两 个 变量 的 
第 三 方 变量 。” 在 这 类 情况 下 ,， “这 是 个 纯 偶 然 事件 ， 将 这 两 组 数据 放 


在 一 起 其 实 是 巧合 。 计 算 机 之 所 以 将 这 两 者 挑选 出 来 ， 是 因为 我 给 计 
算 机 几 千 组 数据 处 理 ， 这 两 者 之 间 没有 真实 的 联系 ”。 


根据 维 根 的 说 法 ， 遗 漏 变 量 和 友 无 联系 的 虚假 变量 之 间 的 区 别 古 
理解 变量 的 欺骗 性 中 最 有 趣 ， 同 时 也 钙 最 为 难 解 的 部 分 。“ 两 者 都 具有 
欺骗 性 的 取样 ， 但 两 者 的 运作 模式 又 截然 不 同 。” 


韦 尔 斯 利 学 院 经 济 学 教授 考 特 尼 . 科 和 尔 同 意 这 一 说 法 ， 并 指出 “' 虚 
假 关 联 ' 十 分 有 趣 ， 但 和 我 们 可 以 想象 出 关联 原因 的 情况 一 一 不 论 其 反 
映 了 一 个 变量 对 另 一 个 变量 产生 了 一 系列 轻微 影响 还 是 第 三 个 因素 可 
以 有 反映 出 两 个 变量 之 间 的 关联 一 一 相 比 略 进 一 筹 ”。 


以 上 提 到 的 不 同 点 非常 重要 ， 在 你 日 钊 生活 中 看 竺 互 为 关联 的 事 
物 时 应 牢记 于 心 。 目 我 提问 : 两 者 的 关联 性 纯粹 只 是 巧合 ”还 是 有 遗 
漏 变 量 在 起 作用 ? 


作为 一 个 具有 批判 意识 的 数据 接收 者 ， 你 可 能 会 想 : “有 是否 可 能 根 
本 不 存在 巧合 ? 会 不 会 存在 一 个 我 们 不 知道 的 遗漏 变量 ， 从 而 可 以 从 
某 种 程度 上 解释 加 利 福 尼 亚 的 阳光 和 美 属 院 摩 亚 岛 上 的 律师 的 联系 ? ” 


我 们 不 会 说 这 古 不 可 能 的 ， 束 好 像 我 们 也 不 会 说 牙 仙 是 不 存在 的 
一 样 。 你 的 确 不 能 说 目 己 已 经 掌握 了 所 有 的 因素 ， 但 你 通常 可 以 去 除 
那些 明显 不 合 情 理 的 因素 。 (如 果 你 觉得 吃 烤 奶酪 三 明治 可 以 提高 床 
上 生活 质量 ， 那 你 可 真 比 高 达 奶 酪 还 要 性 感 了 。) 统计 学 并 非 总 是 完 
美的 ， 但 它 提 供 了 一 个 框架 ， 让 人 人 们 可 以 以 科学 的 方式 评估 数据 。 


1. Tyler Vigen, “Spurious Correlations— Sunlight in California Correlates with Lawyers in 
American Samoa,” Tyler Vigen website, accessed April 20, 
2015,http://tylervigen.com/view_correlation?id=30444. 


2. Tyler Vigen, “Spurious Correlations— Total Revenue Generated by Bowling Alleys (US) 
Correlates with Per Capita Consumption of Sour Cream(US),” Tyler Vigen website, accessed 
April 20, 2015, http://tylervigen.com/view_correlation?id=292. 


3. Tyler Vigen, Spurious Correlations (New York: Hachette Books, 2015). 
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所 以 ,为 什么 许多 人 会 搞 混 关联 性 和 因 采 性 ? 在 有 些 情 况 下 ， 数 
据 在 茶 种 程度 上 被 人 简化、 被 奔 张 、 被 错误 呈现 。 


还 记得 我 们 之 前 提 过 的 美国 有 线 电视 新 闻 网 的 一 篇 文章 吧 ， “研究 
表明 ， 聪 明 人 用 苹果 手机 。” 


如 果 你 单单 只 看 这 个 标题 ， 你 可 能 会 觉得 人 聪明 和 用 苹果 手机 之 
间 存在 关联 。 但 文章 或 研究 并 没有 这 么 说 。 事 实 上 ， 美 国有 线 电 视 新 
闻 网 引用 的 文章 根本 没 用 “聪明 ”一 词 。( 央 这 篇 文章 所 依据 的 白皮书 也 
同样 如 此 。 


在 这 种 情况 下 ， 媒 体 所 描绘 的 关联 性 并 非 存 在 于 原始 研究 之 中 。 
公平 地 说 ， 尽 管 美 国有 线 电 视 新 闻 网 用 了 “聪明 ”一 词 ， 但 文章 并 未 直 
言 使 用 苹 末 手机 会 让 你 变 聪明 。 只 是 有 时 候 关 联 性 会 被 以 一 种 可 能 暗 
示 存 在 因果 关系 的 方式 呈现 一 一 这 是 你 必须 当心 的 事 。 


密 敬 根 大 学 的 法 学 教授 ]J]. 普 雷 斯 科 特 解释 说 ， 大 多 数 人 会 犯 的 一 
个 大 错误 是 由 于 “人 们 的 大 脑 很 容易 将 因果 性 和 关联 性 搞 混 。 新 的 文章 
时 常会 碰 到 一 个 问题 ， 即 事物 存在 关联 性 的 故事 不 如 事物 存在 因果 性 
的 故事 有 吸引 力 。 因 此 ， 记 者 甚至 学 者 都 会 含糊 其 词 ， 任 由 读者 自己 
解读 " 。 


还 记得 在 21 世 纪 导 期 发 生 的 互联 网 泡沫 朋 盘 吗 ? 当时 股市 大 跌 
同时 年 长 者 从 事 劳 动 的 人 数 上 升 。 科 尔 博士 当时 十 美国 国家 经 济 
研究 局 的 老年 经 济 研 究 计 划 组 成 员 (需要 提 一 下 ， 这 个 组 织 人 负责 给 


府 提 建议 ， 但 没有 制定 政策 的 权力 ) ， 她 回忆 当时 有 很 多 媒体 报道 说 
劳动 率 上 升 是 由 于 人 们 延迟 退休 以 填补 股市 的 亏空 。 


“很 容易 发 现 这 两 个 现象 同时 发 生 ， 并 且 看 上 去 好 像 真 的 有 联 
系 ，” 科 尔 对 我 们 说 , “但 要 证 明 这 两 者 存在 因 采 关系 束 比 较 困 难 。” 事 
实 上， 她 和 同事 进行 了 深入 的 研究 ， 发 现 * 没 有 证 据 表 明和 股市 有 紧密 
联系 的 人 群 (如 持 大 学 学 历 的 工人 ) 和 其 他 工人 相 比 在 股灾 期 间 退休 
得 更 晚 ”。 他 们 还 发 现 由 于 持 有 股票 太 多 ， 导 致 影响 到 其 退休 决定 的 人 
数 很 少 ， 以 至 根本 无 法 在 劳动 人 口 变 化 中 体现 出 来 。 最 终 科 尔 解释 
道 :“ 尽 管 报道 上 说 得 像 那 么 回 事 ， 但 在 当时 改变 劳动 人 口 的 因素 中 ， 
股市 并 没有 其 他 因素 重要 。” 


在 接收 小 数据 的 时 候 ， 记 住 那些 老练 的 杂志 撰 稿 人 、 电 视 制作 
人 、 广 告 文 编写 人 深 详 玩 弄 文 字 之 道 ， 因 为 他 们 的 工作 就 是 吸引 他 人 
注意 力 。 不 要 被 他 们 骗 了 。 通 读 全 文 ， 思 考 他 们 到 底 说 了 什么 ， 没 说 
什么 。 


假设 你 是 一 名 杂志 记者 。 一 天 ， 你 看 到 了 一 项 研究 ， 人 研究 显示 吃 
布朗 尼 蛋 粒 和 体重 增加 之 间 存在 关联 。 编辑 让 你 殴 此 写 一 篇 文章 ， 并 
把 写 几 个 备 选 标题 给 她 看 看 。 下 面 吏 是 你 的 备 选 标题 : 


“科学 家 发 现 吃 布 明 尼 和 蛋糕 和 体重 增加 之 间 存 在 关联 。 
"TERQUE, BBN AH AE SESS ° 
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MZT BATE SES ACIS?” 

“如 何 通过 不 吃 布朗 尼 和 蛋糕 来 减 掉 20 磅 体重 ? ” 


上 面 的 标题 中 ， 没 有 一 条 说 吃 布 朋 尼 和 蛋糕 导致 体重 增加 。 但 你 可 
以 看 到， 这 些 标题 暗示 两 者 存在 因 来 关系 ， 只 是 没有 明说 而 已 。 


有 时 候 ， 揭 示 真 相 的 最 佳 方法 是 癌 问 题 。 如 有 果 你 看 到 “体重 增加 和 
吃 布 衣 尼 蛋糕 脱 不 开关 系 ” 这 样 的 标题 ， 你 只 需 问 :“ 体 重 增 加 和 吃 布 
朗 尼 和 蛋糕 怎么 脱 不 开关 系 了 ? ”这 个 问题 的 答案 会 掏 示 两 者 之 间 真 正 的 


1. "Infographic: iPhone Usage Rates by State,” Chitika Inc. January 2015, 
https://chitika.com/insights/2015/iphone-by-state. 

2. “Infographic: iPhone Usage Rates by State,” Chitika Inc., January 2015, 
https://chitika.com/files iPhone_Usage_by_State- Correlation_White_Paper_Chitika 


Insights.pdf# overlay- context=user/5. 


了 解 大 脑 的 工作 模式 


那么 多 人 会 把 关联 性 和 因果 性 搞 混 ， 也 许 古 因为 我 们 都 太 善于 解 
读数 据 了 。 


“人 类 大 脑 古 一 台 模 式 识别 的 机 器 。” 罗 恩 : 弗 里 德 曼 在 一 次 采访 中 
说 道 。 弗 里 德 曼 羡 社会 心理 学 家 ， 专 门 研 究 人 类 动机 。 他 的 著作 有 
《最 佳 工作 场所 :创造 一 个 非 几 的 工作 场所 所 需要 的 艺术 与 科学 》。 


“在 过 去 ， 书 籍 和 搜索 引擎 还 没有 发 明之 前 ， 找 出 原因 和 影响 对 于 
我 们 的 生存 至 关 重 要 ，” 弗 里 德 曼 指 出 , “我 们 的 大 脑 通 过 进化 ， 变 得 
善于 寻找 秩序 、 预 测 事情 发 展 。 我 们 无 法 控制 这 个 过 程 一 一 我 们 会 处 
处 寻找 联系 ， 即 使 联系 并 不 存在 。” 


因果 关系 会 让 人 安心 ， 所 以 我 们 想 要 找到 这 类 关系 。 


“我 们 脑 中 仿佛 有 这 样 的 程序 一 一 揭示 事件 之 间 的 联系 ， 解 读 偶 然 
事件 ， 将 其 作为 存在 因果 关系 的 证 据 ，” 弗 里 德 曼 接着 说 道 ,“ 当 某 件 
事 起 因 不 明 的 时 候 ， 我 们 会 目 然 而 然 想 要 填补 这 个 空 日 ， 人 为 地 加 上 
原因 。” 


如 何 应 对 ? 你 无 法 让 目 己 大 脑 不 要 填补 空 日 ,但 你 可 以 了 解 大 脑 
如 何 工作 ， 从 而 多 伦 一 个 步 又 寻找 因果 关系 的 证 据 。 


如 果 你 是 波士顿 红 袜 队 的 死 忠 粉 ， 然 后 你 觉得 只 有 在 你 穿 自己 的 
幸运 IT 恤 的 时 候 他 们 才能 赢 球 ， 那 你 必须 明白 你 正在 基于 模式 制造 一 
个 假想 的 因果 关系 。 估 ) 
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抱 有 期 望 。 我 们 喜欢 理解 周围 的 世界 ， 将 关联 性 变 为 因果 性 可 以 给 我 
们 这 种 理解 了 世界 的 感觉 ， 但 这 并 不 表示 这 是 解读 数据 的 正确 方法 。 


1. For an alternative view exploring the potential psychological influence of such lucky 
routines, see “Why ‘Magical Thinking’ Works for Some People” by Piercarlo Valdesolo in 
Scientific America (October 19, 2010), http:/www.scientificamerican com/article/ 
superstitions- can- make- you/. 


抛弃 先入 为 主 的 观念 


我 们 来 看 一 下 围绕 MMR (WMA ` HERDS ` XE) 疫 盏 及 其 与 孤独 
证 关联 的 争论 。 或 许 你 听 说 过 明星 妈妈 珍妮 . 麦 痪 卡 锡 谈论 过 有 的 家 长 
说 自家 孩子 接种 完 疫 苗 以 后 就 发 烧 ， 不 说 话 ， 接 着 就 得 了 孤独 症 。 人 四 


两 者 具有 关联 性 一 一 而 非 因果 性 。 


所 以 ， 为 什么 调查 时 有 1/3 的 家 长 认为 接种 疫苗 会 导致 孤独 症 ? © 
那 篇 颇 负 盛名 的 声称 找到 两 者 联系 的 期 刊 文章 现 已 撤回 。( 汗 一 项 针对 
超过 95000 名 儿童 的 研究 发 现 * 接 种 MMR 疫苗 并 没有 增加 患 孤 独 症 谱 系 
障碍 的 危险 ”。( 时 ) 

但 如 果 你 孩子 在 接种 完 MMR 疫 苗 后 ， 突 然 变 得 内 向 不 爱 说 话 ， 你 


会 怎么 办 ? 你 会 不 会 怀疑 两 者 之 间 存 在 关联 ? 你 会 不 会 想 要 知道 为 什 
么 你 孩子 患 上 了 孤独 症 谱系 障碍 ? 


我 们 觉得 你 还 是 要 给 孩子 接种 疫 再 。 科 学 已 经 否定 了 MMR 疫 再 和 
孤独 症 之 间 存 在 因果 关系 的 说 法 ， 但 你 可 以 看 到 父母 的 情绪 是 如 何 影 
啊 他 们 解读 数据 的 。 下 次 你 为 容易 让 人 情绪 化 的 事件 之 间 是 否 存在 因 
条 关系 争论 的 时 候 要 记 住 这 一 点 。 


OPP IRE RARE ASE UE PE mAAR, i De 
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找 一 个 答案 一 一 寻找 一 个 特定 的 管 案 。 


实证 性 偏见 几乎 影响 着 你 对 行 数 据 的 方方面面 一 一 从 抽样 到 观察 
到 预测 一 一 因此 在 解读 数据 的 时 候 ， 你 必须 时 时 留心 。 在 研究 关联 性 


和 因 末 性 的 时 候 ， 实 证 性 偏见 是 有 些 人 忽略 遗漏 变量 的 一 大 原因 ， 
为 他 们 香 借 先入 为 主 的 观念 ， 而 非 基 于 真实 的 证 据 ， 把 两 件 事 时 间 的 
关联 性 当成 了 因果 性 。 


1. 


Transcripts— CNN Larry King Live, *Jenny McCarthy's Austism Fight,"CNN website, 
aired April 2, 2008, http://transcripts.cnn.com/TRAN SCRIPTS/0804/02/1kl.01.html. This is 
the same interview in which McCarthy says, “I believe that parents’ anecdotal information is 


science- based information." 


“Survey: One Third of American Parents Mistakenly Link Vaccines to Autism,"National 
Consumers League website, April 2, 2014, 
http://www.nclnet.org/survey one third of american parents mistakenly link vaccines to a 


utism. 


A. J. Wakefield, S. H. Murch, A. Anthony, J. Linnell, D. M. Casson, M. Malik, 
M.Berelowitz, A. P. Dhillon, M. A. Thomson, P. Harvey, A. Valentine, S. E. Davies,and J. A. 
Walker- Smith, * Ileal- Lymphoid- Nodular Hyperplasia, Non- Specific Colitis, and Pervasive 
Developmental Disorder in Children,” Lancet 375, no.9713 (2010) 
http://www.thelancet.com/journals/lancet/article/ PIISO140- 6736%2897%2911096-0/abstract. 
Retracted due to the fact that the investigations were not approved by the local ethics 


committee and that children were not“consecutively referred.” 


Anjali Jain, Jaclyn Marshall, Ami Buikema, Tim Bancroft, Jonathan P. Kelly,and Craig J. 
Newschaffer, “Autism Occurrence by MMR Vaccine Status Among US Children with Older 
Siblings with and without Autism,” JAMA 313, no. 15 (2015), 
http://jama.jamanetwork.com/article.aspx?articleid=2275444. Although, if you want to start 
poking holes, you could start with the fact that the sample set was "privately insured children 
with older siblings." 


最 后 但 依然 重要 的 一 所 


哪怕 你 证 明了 两 件 事 之 间 存 在 因果 关系， 记 住 这 仅仅 说 明 一 件 事 
引发 了 男 一 件 事 ， 并 不 能 告诉 你 这 个 结 采 的 影响 或 重要 性 一 一 这 两 个 
话题 我 们 会 在 第 五 章 进 行 讨论 。 


如 果 你 只 是 想 要 知道 是 否 X3 引 起 了 Y， 那 证 明 两 者 存在 因 采 关系 束 
足够 了 。 但 是 如 果 你 想 要 知道 X (然后 就 是 Y) 是 如 何 影 响 你 日 常生 活 
的 ， 那 你 就 要 多 问 几 个 问题 了 。 


所 以 ， 该 如 何 处 理 因 果 关 系 ， 如 何 切 实证 明 两 者 关系 征 因 果 关 系 
而 不 古人 简单 的 相互 关联? 


我 们 发 现 我 们 所 提 的 很 多 建议 都 在 提醒 你 应 该 注意 哪些 陷阱 ， 哪 
些 事 不 该 做 。 这 本 书 并 不 十 统 计 学 教材 。 很 不 幸 ， 我 们 没有 足够 的 版 
面 来 教 你 如 何 做 一 项 完美 的 统计 学 分 析 ， 或 确定 两 个 事物 到 发 存在 怎 
样 的 关联 。 但 没事 ， 因 为 我 们 的 目标 束 古 想 要 帮助 你 通过 明日 关联 性 
和 因果 性 的 区 别 ， 了 解 人 们 为 什么 会 将 这 两 者 摘 混 来 让 你 在 做 决定 的 
时 候 更 为 明智 一 一 不 重 蹈 前 人 的 上 柳生 。 


如 何 成 熟地 应 对 关联 性 和 因果 性 


现在 ， 对 关联 性 和 因 末 性 之 间 的 差别 有 了 较 好 的 理解 ， 我 们 在 接 
收 有 关 统 计 学 关系 的 数据 的 时 候 ， 还 有 几 点 要 谨 记 于 心 : 


1. 问 你 自己 ， 这 篇 新 发 表 的 文章 或 研究 展示 了 什么 。 文 章 中 
的 确 用 了 “因果 ”关系 这 个 字眼 了 吗 ? 不 少时 候 ， 标 题 或 文章 中 可 能 会 
音 示 因 采 关系 ， 但 如 采 你 深入 研究 ， 会 发 现 大 多 数 实际 的 研究 只 十 在 
讨论 某 种 关联 性 。 


2. 在 理解 统计 学 分 析 结 果 的 时 候 ， 退 一 步 ， 用 常识 思考 一 下 一 一 
这 样 的 天 系 从 直觉 看 来 对 不 对 ? 为 什么 吃 烤 奶酪 可 以 提高 性 生活 质 
量 ? 聪明 人 用 苹果 手机 这 种 说 法 能 不 能 说 得 通 ? 尽管 统计 学 第 常 可 以 
得 出 出 人 意料 的 结论 ， 但 不 要 把 一 切 孤 立 起 来 看 行 ， 不 要 抛弃 自己 的 
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3. 如 果 你 看 到 了 两 者 之 间 的 关系 ， 问 自己 : 会 不 会 有 其 他 的 因 
素 导 致 了 我 所 观察 到 的 结论 ? 在 理解 两 者 关系 的 时 候 ， 是 不 是 有 
其 他 确实 非常 重要 的 遗漏 变量 。 


4. 时 刻 当 心 反 向 因果 关系 。 找 到 统计 学 上 的 关联 性 并 不 能 表示 
事情 就 是 按照 那个 顺序 排列 的 。 聪 明 人 会 晚 睡 吗 ? 或 者 人 们 晚 睡 正 是 
因为 他 们 聪明 ? 不 要 小 看 反馈 循环 一 一 Xx 影响 了 Y，Y 同 时 又 影响 了 X 

(如 聪明 人 晚 睡 ， 而 晚 睡 又 给 了 人 们 更 多 时 间 让 自己 变 得 聪明 ， 而 人 
TÆT, Xa ARET...) 


5. 最 后 ， 对 于 科学 家 来 说 ， 证 明 因 果 关 系 也 是 一 件 非常 需要 
技术 含量 的 事 。 对 于 那些 据 称 是 因果 关系 ， 尤 其 可 能 存在 潜在 的 遗 
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第 五 章 眼见 真 的 为 实 吗 ? 我 们 信仰 统计 学 


哪怕 在 华盛顿 这 个 到 处 是 宏伟 纪念 碑 的 城市 里 ， 越 战 阵 亡 战 士 纪 
念 伍 依然 与 众 不 同 。 几 十 块 黑 色 花 册 岩 墙 面 上 刻 着 在 越战 中 阵亡 和 失 
中 人 员 的 名 字 总 数 超过 58000 个 。 


但 由 于 一 个 据 称 是 随机 的 抽签 程序 使 得 有 些 美国 军人 死去 ， 而 另 
—IEH ATE T FR » © 


1969 年 ， 美 国 在 越南 有 超过 50 万 军队 。 美 国 兵役 注册 部 门 开始 了 
二 战 以 来 第 一 次 征兵 抽签， 以 决定 下 一 年 哪些 人 要 继续 服役 。1969 年 
12 月 1 日 将 进行 一 项 随机 抽签 ， 约 有 85 万 “符合 抽签 条 件 ” 的 年 轻 人 将 会 
根据 生日 的 不 同 分 配 到 不 同 的 抽签 数字 。 


抽签 是 这 么 运作 的 : 工作 人 员 将 366 个 蓝 色 塑 料 胶囊 放 到 盒子 中 ， 
每 个 胶 埃 中 都 内 含 一 个 从 1 月 1 日 到 12 月 31 日 之 间 的 日 期 加 。 再 将 盒 
的 所 有 胶囊 倒 进 一 个 大 型 玻璃 容器 里 ， 工 作 人 员 随 后 将 胶囊 一 一 从 玻 
璃 容器 中 取出 。 


如 果 第 一 个 胶 宫 中 写 着 你 的 生日 (9 月 14 日 ) ， 那 你 就 被 分 配 到 1 
号 ; 如 果 你 的 生日 出 现在 第 二 个 胶 襄 中 (4 月 24 日 ) ， 那 你 就 被 分 配 到 
2 与 ， 以 此 类 推 。 编 号 越 往 前 ， 你 区 越 早 服役 。 据 售 算 如 末 你 的 编号 排 
在 前 /3， 那 你 可 能 整 要 准备 在 不 久 的 将 来 前 往 新 兵 训 练 癌 了 ， 接 着 开 
赴 越南 。 


从 理论 上 看 ， 兵 投注 册 部 门 选 人 十 随机 的 。 每 个 人 被 第 一 个 抽 到 
的 概率 相同 ， 但 事实 并 非 如 此 。 


1970 年 《纽约 时 报 》 上 有 一 篇 文章 的 标题 为 《统计 学 家 指出 
征兵 抽签 并 非 随机 》 。 人 时) 该 文章 指出 ，12 月 出 生 的 人 和 1 月 出 生 的 人 
相 比 ， 会 更 容易 在 抽签 中 编号 靠 前 。 事 实 上 ， 如 《纽约 时 报 》 上 的 一 
幅 图 表 显示 ， 生 日 从 1 月 到 5 月 间 的 人 在 抽签 中 的 编号 平均 数 大 于 200， 
再 往 后 编号 逐 月 变 小 ( 除 10 月 份 外 ) ， 最 终 减 到 12 月 的 122 。 


在 本 章 中 ， 我 们 准备 探寻 科学 工作 者 在 判断 某 种 统计 学 效应 是 否 
为 随机 上 使 用 的 不 同方 法 。 


根据 接受 《纽约 时 报 》 采 访 的 统计 学 家 的 说 法 ， 在 这 种 情形 下 ， 
随机 出 现 图 表 上 结果 的 概率 为 /50000。 


那 如 琳 这 并 非 随 机 ， 那 又 该 如 何 解 释 这 种 倾向 ? 


从 统计 学 角度 ， 在 某 种 特殊 的 情况 下 ， 比 较 靠 后 的 月 份 的 编号 平 
均 数 会 较 小 〈 较 早 被 抽 到 ) 。 那 是 在 什么 情况 之 下 呢 ? 即 靠 后 月 份 的 
胶 吉 处 于 玻璃 容 春 上 层 ， 而 非 与 其 他 胶 宫 随机 混合 。 
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图 5-1 不 同月 份 出 生 的 人 所 获得 的 抽签 编号 平均 值 


兵役 注册 部 门 的 公共 信息 部 主任 对 《纽约 时 报 》 解 释 了 胶 宫 是 如 
何 寓 合 的 。 首 先 ， 工 作 人 员 将 1 月 份 的 31 颗 胶 宫 装 入 容 右 。“1 月 份 的 胶 
圳 被 放 入 了 一 个 方形 大 木 箱 ， 接 着 工作 人 员 用 硬 纸 极 将 胶 宫 推 到 箱子 
一 侧 ， 将 箱子 另 一 侧 空 出 来 。” 岂 接着， 工作 人 员 将 2 月 份 的 胶 赛 倒 入 
箱子 空 看 的 一 侧 ， 然 后 再 用 硬 纸板 将 其 推 向 一 侧 。 投 入 每 个 月 份 的 胶 
上 赛 都 会 经 过 这 样 的 流程 。 这 样 ，1 月 份 的 胶 守 瑟 会 和 其 他 月 份 的 胶 守 混 
合 11 次 〈2 月 份 胶 宫 也 一 样 ， 因 为 1 月 2 月 的 胶 宫 是 第 一 组 进行 混合 的 
一 一 《纽约 时 报 》 没 有 搞 清楚 这 个 事实 ) ， 接 着 3 月 份 的 胶 赛 和 其 他 胶 
赛 混 合 了 10 次 ，4 月 份 的 9 次 ， 以 此 类 推 。 


12 月 份 的 胶 宫 仅 和 其 他 月 份 胶 宫 混合 了 一 次 。 


兵役 注册 部 门 以 这 个 方式 抽签 也 有 他 们 自己 的 考虑 也许 早 在 
20 世 纪 40 年 代 那 次 工作 人 员 用 木 勺 搅动 胶 圳 的 时 候 把 胶 圳 卉 破 的 事件 
也 是 原因 之 一 。 (根据 《科学 》 杂 志 的 说 法 ， 那 个 木 勺 由 “费城 独立 纪 
念 厅 橡 条 的 木料 ” 制 成 ) S 


至 少 从 历史 记录 上 看 ， 并 不 清楚 胶囊 是 通过 何 种 方式 倒 进 玻璃 容 
器 中 的 ， 但 无 疑 你 可 以 看 出 以 逐 月 方式 加 入 并 混合 胶囊 可 能 导致 不 同 
的 结果 。 试 问 如 果 将 混合 胶 宫 的 木 箱 掉 转 方向 ， 从 另 一 个 口 将 胶 历 个 
入 玻璃 容器 ， 最 终 的 结果 会 不 会 截然 相反 ? 


在 这 个 例子 中 ， 抽 釜 号 码 本 该 是 “随机 ?抽取 的 ; 因此 ， 如 果 号 码 
的 确 被 抽 到 的 概率 相同 ， 束 应 该 有 一 个 基准 结果 。 从 统计 学 角度 ， 如 
条 抽签 结 末 和 基准 结 采 不 同 ， 那 或 可 以 明显 地 得 出 由 生日 编号 组 成 的 
抽签 结果 很 可 能 并 非 出 自 一 个 纯 随机 的 过 程 。 (尽管 使 用 生日 一 一 如 
果 方 式 正确 的 话 一 一 可 以 作为 一 种 随机 的 方式 来 解决 问题 。) 


作为 一 个 成 熟 的 小 数据 接收 者 ， 你 必须 能 够 辨别 从 数据 中 找到 的 
关系 真实 性 有 多 大 。 你 在 数据 中 找到 的 关系 是 随机 产生 的 ， 还 是 男 有 
奥妙 ? 你 有 多 少 把 握 可 以 肯定 你 所 看 到 的 是 真实 的 一 一 你 对 其 影响 衡 
量 的 准确 度 和 精确 度 有 多 少 ? 我 们 在 本 章 中 将 会 进一步 探讨 这 几 个 问 


题 。 


1. Randomization is a powerful statistical tool for eliminating selection bias, and Esther 
Duflo and others have written extensively about randomized controlled trials and related 
topics. For more detail, *Using Randomization in Development Economics Research: A 
Toolkit," © 2006 by Esther Duflo, Rachel Glennester, and Michael Kremer, National Bureau 
of Economic Research, 2006,http://www.nber.org/papers/t0333.pdf. 


pa 


February 29 was included in the dates to account for men born in leap years. 


e 


David E. Rosenbaum, “Statisticians Charge Draft Lottery Was Not Random,"New York 
Times, January 4, 1970, http://frewm.wikispaces.com/file/vie/nytimes.pdf. If you look at the 
original article, you'll see that the average number for July was reported as 180. Based on our 
calculations, it was actually 182. 


4. Rosenbaum, “Statisticians Charge Draft Lottery Was Not Random.” 


5. Stephen E. Fienberg, *Randomization and Social Affairs: The 1970 Draft Lottery," 
Science 171 (1971): 255, http://conallboyle.com/lottery/05US mil draft1970.pdf. 


6. We might also be able to learn something about the process by studying the variance— 
the amount by which values vary— within each month. 


民意 调查 
2015 年 夏天 ，《 彭 博 社 政治 版 》 针 对 共和 党 人 做 了 一 项 投票 ， 询 
问 他 们 心中 美国 总 统 的 最 佳人 选 。 


10% 的 人 选择 了 杰 布 :布什 ，8% 的 人 选择 了 斯 科 特 : 沃 克 ， 这 个 结 
果 显 示 布 什 仅 领 先 沃克 29%6 。 


也 许 是 这 样 。 因 为 当 你 观察 数据 ， 你 会 发 现 有 可 能 布什 实际 上 落 
后 6%， 人 也 可 能 布什 领先 10%。 


这 个 结论 是 如 何 得 出 来 的 ? 彭 博 社 投票 的 误差 范围 为 +4.49%。[ 轩 ) 


每 次 调查 中 ， 总 会 有 些 “ 播 摆 不 定 的 投票 者 "， 他 们 会 给 调查 结果 
带 来 随机 性 。 误 差 范围 便 是 衡量 这 类 投票 中 不 确定 因素 的 常用 统计 学 
手段 ， 是 回答 “你 真 的 确定 吗 " 这 个 问题 的 一 种 方式 。 


很 多 人 曲解 了 误差 范围 ， 认 为 其 表明 了 竞选 人 的 支持 程度 肯定 在 
这 个 范围 之 内 。 这 种 定义 不 太 正确 。 


误差 范围 到 撒 指 什么 ， 根 据 彭 博 社 的 说 法 ， 指 “如 果 一 项 调查 重复 
使 用 相同 的 问题 和 相同 的 操作 方式 ， 调 查 结果 的 偏 革 程度 20 次 中 会 有 
19 次 在 +4.4% 范 围 之 内 ”。( 针 


因此 ， 回 到 绢 博 社 的 投票 一 一 为 什么 我 们 无 法 得 出 100% 相 同 的 结 
R? 为 什么 座 差 范围 会 这 么 大 一 一 增加 4.4% 或 减少 4.4%? 


因为 投票 便 是 抽样 。 在 上 面 的 情形 中 ， 取 了 500 人 的 样本 。 样 本 并 
非 总 体 一 一 在 上 次 总 统 选 举 中 ， 有 超过 6000 万 人 把 票 投 给 了 共和 党 。 


在 这 种 情况 下 ， 给 如 此 大 的 数据 总 体 抽样 ， 必 须要 面 对 抽样 的 误差 ， 
这 事 我 们 在 本 章 会 详细 讨论 。 人 四 


这 束 说 明 布 什 可 能 一 一 或 可 能 没有 一 一 在 移 举 的 时 候 真 的 领先 沃 
克 。 在 存在 误 关 范围 的 情况 下 ， 根 据 现 有 数据 很 难 下 结论 。 我 们 对 此 
次 投票 结 采 的 最 佳 解 释 是 布什 领先 于 沃 赤 。 但 考虑 到 误差 范 围 的 大 
小 ， 我 们 无 法 确定 真实 情况 是 否 如 此 。 


最 后 ， 给 你 呈 上 今天 最 有 趣 的 一 个 事实 ， 根据 美国 国家 经 济 研究 
局 的 说 法 ，* 福 克 斯 新 闻 频 道 的 报道 对 1996_2000 年 的 总 统 选举 投票 产 
生 的 影响 不 大 ， 但 具有 显著 性 差异 ”。( 当 ) 


1. John McCormick, “Donald Trump Dominates Republican Field in Pre- Debate 
Bloomberg Poll,” Bloomberg, August 4, 2015, 
http://www.bloomberg.com/politics/articles/2015-08-04/ donald- trump- dominates- 
republican- fiel-in- pre- debate- bloomberg- poll. 


N 


With a margin of error of +4.4 percent, the researchers would expect that Jeb would not 
be more than 4.4 percent higher or lower than 10 percent (approximately 6 to 14 percent), and 
that Walker would not be more than 4.4 percent higher or lower than 8 percent (roughly 4 to 
12 percent). 


3. “Bloomberg Politics National Poll,” Bloomberg, August 4, 2015, 
http://images.businessweek.com/cms/2015-08-04/8302475320_tue.pdf. 


4. Of course, there may be other factors that affect sampling error— such as whether you’re 
polling all voters versus likely voters, how you’re conducting the poll (some pollsters may 
only call land lines, not cell phones), etc. 


5. Les Picker, “Media Bias and Voting," National Bureau of Economic 
Research, http://www.nber.org/digest/oct06/w12169.html. 
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FREE ZR TE DEZ PER FE E, ASR RES AR 
二 手 烟 和 癌症 的 信息 Onm ESSA IRUBIUEGEGOR HA EDT 4: “ 吸 
—- SUBEST ” 


BH. Bo 


国家 癌症 研究 所 声称 提供 “科学 、 权 威 、 最 新 "的 数据 "(四 ， 并 列 出 
许多 文献 ， 这 些 文献 将 二 手 烟 归 于 冶 症 诱因 。 


该 网 站 指出 “吸入 二 手 烟 会 导致 不 吸烟 的 成 人 恰 患 癌症 >*。 该 网 站 
指出 和 吸烟 者 共同 生活 “会 使 不 吸烟 人 群 串 上 癌症 的 概率 增加 
20%~30%”。 该 网 站 甚至 引证 了 美国 每 年 由 于 二 手 烟 而 死亡 的 不 吸烟 
# AC —__#93000A > 


所 以 可 以 想象 当 我 们 读 到 《国家 癌症 研究 所 期 刊 》 上 一 篇 名 为 
《被 动 吸烟 和 癌症 不 存在 明显 关联 》( 迪 的 文章 时 有 多 惊讶 。 

啊 ， 现 在 该 如 何 是 好 ? 我 们 手头 有 国家 癌症 研究 所 数 十 年 的 研究 
成 果 ， 声 称 二 手 烟 会 引发 癌症 ， 同 时 也 有 这 个 研究 ， 声 称 两 者 不 存在 
明显 关联 。 


你 该 如 何 解读 这 些 数 据 ? 


你 可 以 伦 去 数 天 (也 可 能 十 数 星期 或 数 月 ) 时 间 通 读 国 家 癌症 人 研 
究 所 的 所 有 参考 文献 ， 外 加 一 份 美 国 卫 生 局 局 长 所 撰写 的 727 页 的 报 
告 ， 试 着 目 己 来 寻找 答案 。 


你 可 以 听取 针对 这 项 最 新 研究 的 资深 研究 员 的 说 法 : “我 们 认为 文 
章 想 要 传递 的 信息 便 是 基于 分 析 ， 我 们 无 法 得 出 危险 是 什么 ， 甚 至 无 
法 得 出 是 否 存在 危险 。” 


或 者 你 也 可 以 停 一 下 ， 并 思考 全 守 员 和 科学 家 如 何 判断 他 们 的 研 


因此 ， 作 为 一 个 成 熟 的 数据 接收 者 ， 应 该 怎么 办 ? 


1. “Secondhand Smoke and Cancer,” NIH National Cancer Institute website, reviewed 
January 12, 2011, http://www.cancer.gov/ about- cancer/ causes- prevention/risk/tobacco/ 


second- hand- smoke- fact- sheet#r5. 


2. “About This Website,” NIH National Cancer Institute website, posted April 10,2015, 
http://www.cancer.gov/ about- website. 


3. This number appears to be an estimate from an EPA report: *Approximately 3,000 lung 
cancer deaths per year among nonsmokers ( never- smokers and former smokers) of both sexes 
are estimated to be attributable to ETS in the United States. While there are statistical and 
modeling uncertainties in this estimate,and the true number may be higher or lower, the 
assumptions used in this analysis would tend to underestimate the actual population risk. The 
overall confidence in this estimate is medium to high." U.S. EPA, "Respiratory Health Effects 
of Passive Smoking (Also Known As Exposure to Secondhand Smoke or Environmental 
Tobacco Smoke, ETS?)," U.S. Environmental Protection Agency, Office of Research and 
Development, Office of Health and Envirmental Assessment, Washington, D.C., EPA/600/6- 
90/006F, 1992. 


4. Judy Peres, *No Clear Link Between Passive Smoking and Lung Cancer," Journal of the 
National ^ Cancer Institute 105 (2013): 1844- 1846, http://jnci.oxford 
journals.org/content/early/2013/12/05/jnci.djt365.full. 


重要 的 事 


在 电影 《感谢 你 抽烟 》 中 ， 艾 伦 : 艾 克 哈 特 扮演 的 角色 (烟草 公司 
REA) 对 他 儿子 说 : “只 要 以 正确 的 方式 辩论 ， 你 就 永远 不 会 是 错 
SERO 


上 上面 的 话 尽 管 只 是 好 莱 坞 讽刺 片 一 个 说 客 的 台词 ， 但 依然 很 有 
趣 ， 在 我 们 谈论 统计 学 中 显 闭 性 差异 的 时 候 ， 需 要 记得 这 人 句 话 。 很 多 
人 觉得 显著 性 差异 便 是 谈论 数据 的 “正确 ”方法 。 


显著 性 差异 是 科学 家 和 学 者 设 定 的 客观 标准 ， 用 来 确定 “从 统计 学 
角度 来 看 ” 荣 个 特定 的 关系 是 否 存在 于 数据 中 。 科 学 家 通过 检验 显著 性 
差异 以 辨别 观察 到 的 效应 是 否 在 数据 中 有 所 体现 (存在 很 大 可 能 
TE) ， 或 仅仅 出 于 巧合 。 有 一 点 很 重要 ， 即 找到 显著 性 差异 并 不 能 告 
诉 我 们 茶 种 关系 是 关 联 性 的 还 是 因 采 性 的 ， 同 时 也 不 能 告诉 我 们 是 否 
存在 遗漏 变量 影响 着 最 终结 末 。 


显著 性 差异 指 某 事 真 实 的 可 能 性 。 可 以 用 来 衡量 我 们 观察 到 的 结 
果 有 多 少 概率 是 真实 的 〈 而 非 出 于 巧合 ) ， 所 以 显著 性 差异 通常 会 用 P 
值 来 衡量 。P 在 这 里 指 可 能 性 。 如 采 你 接受 使 用 P 值 作为 显著 性 差异 的 
p ABP LER, (RULES RERU T TE aR IK ° 


衡量 显著 性 差异 时 ， 普 遍 为 人 所 接受 的 P 值 为 小 于 0.05 (相当 于 
5% 可 能 性 ) 。 这 个 数值 得 到 广泛 应 用 的 时 间 可 以 追溯 到 20 世 纪 20 年 
代 ， 推 广 者 为 数学 家 罗 纳 德 . 费 希 尔 ， 他 的 研究 方向 为 肥料 对 作物 产生 
的 影响 。 (=) 


我 们 并 非 妥 在 这 里 辩论 0.05 的 P 值 是 否 征 衡量 显著 性 差异 的 合适 标 
准 ， 我 们 长 至 不 想 讨论 P 值 本 身 是 否 是 衡量 显著 性 差异 的 合适 方法 。 
o 


相反 ， 我 们 在 这 里 是 想 告 诉 你 P 值 一 一 包括 0.05 这 个 值 一 一 在 很 多 
场合 下 束 古 标准 。 


这 就 是 为 何 这 两 者 对 你 来 说 很 重要 。 


因为 当 你 看 到 一 篇 有 关 最 新 科学 发 现 的 文 草 ， 很 可 能 束 因 为 其 P 值 
低 于 0.05， 才 被 科学 界 接受 ， 并 被 媒体 所 报道 


这 可 能 看 起 来 比较 武断 ， 但 就 像 布 法 罗 大 学 副教授 德 瑞 克 .丹尼尔 
博士 对 我 们 说 的 : “有 一 条 标准 线 可 以 让 我 们 保持 客观 。 如 果 没 有 这 一 
条 线 ， 那 我 们 就 会 在 对 自己 有 利 时 对 P 值 0.06 大 肆 宣 扬 ， 而 故意 忽略 不 
利于 自己 的 P 值 0.04 » "(9 


1. Thank You for Smoking, Fox Searchlight Pictures website, accessed August 9,2015, 
http://www.foxsearchlight.com/thankyouforsmoking/. 


2. Ultimately, a statistical analysis is trying to determine if there is enough evidence to reject 
a null hypothesis. As Jesse Farmer wrote on the 20bits blog, “Don’t read anything into the fact 
that it’s called the ‘null’ hypothesis— it's just the hypothesis we're trying to test.” (Jesse 
Farmer, “Hypothesis Testing: The Basics,”  20bits blog, April 22, 2009, 
http://20bits.com/article/ hypothesis- testing- the- basics).Typically, a null hypothesis is 
usually one where there is no relationship between two variables. In other words, your data 
can’t tell you one way or the other whether or not there is a relationship— it could simply be 
due to random chance.When you reject the null hypothesis, it means that there is an 


association that is likely not due to chance. 


3. That said, even Fisher appears to have had some flexibility on the .05, saing. “If one in 
twenty does not seem high enough odds, we may, if we prefer it, draw the line at one in fifty 
(the 2 per cent point), or one in a hundred(the 1 per cent point).” Ronald A. Fisher, “The 
Arrangement of Field Experiments,” Journal of the Ministry of Agriculture of Great Britain 33 
(1926): 503-513, accessed August 9, 2015, https://digital.library.adelaide.edu.au/dspace/bit 
stream/2440/15191/1/48.pdf. 


4. 


Regina Nuzzo, "Scientific Method: Statistical Errors,"Nature website, February 12, 2014, 
http://www.nature.com/news/ scientific method- statistical- errors- 1.14700. 


As Daniels noted, this approach is not what hypothesis testing is all about. In our opinion, 
it's also important to keep in mind that "statistically significant," as many people understand it 
(p<.05), does not mean the findings are 100 percent certain. The p-value measures probability, 
which means that some results may still be more probable than others. For example, p-values 
of .001 and .049 are both statistically significant (by this definition), but a lower-value means 
that these results are more likely to be true. (To be technically precise, it actually means that 
finding a lack of a relationship between two variables is more likely to be false.) 


深呼吸 


现在 我 们 回 看 那 份 二 手 烟 的 研究 ， 看 一 下 这 份 研 完 报 告 到 展 阅 了 
什么 一 一 被 动 吸烟 “在 统计 学 上 并 没有 显著 增加 肺癌 危险 ”。 


但 是 ， 正 如 那个 “不 存在 明显 关联 ”的 研究 者 指出 ， 他 们 的 一 部 分 
结论 是 基于 相对 较 小 的 人 群 得 出 的 。 在 所 研究 的 76000 人 当中 ， 只 有 
152 人 从 未 吸烟 而 且 得 了 肺 志 。 这 有 问题 吗 ? 也 许 有 问题 。 


征 否 这 项 研究 仅 将 女性 作为 研究 对 象 ? 有 可 能 。 


这 项 研究 仅 研 究 了 暴露 在 二 手 烟 环 境 中 的 年 数 ， 而 非 强度 (一 年 
多 少 包 ) ， 这 又 说 明了 什么 呢 ? 不 管 怎样 ， 一 个 不 抽烟 的 妻子 ， 其 丈 
AUGERE: 另 一 个 不 抽烟 的 妻子 ， 其 丈夫 在 室内 抽烟 ， 两 人 比较 
的 结果 应 该 会 有 所 不 同 。 


的 确 ， 很 可 能 这 一 切 因素 都 会 产生 影响 ， 但 关键 在 于 这 项 研究 的 
大 部 分 无 法 表明 吸 二 手 烟 和 癌症 存在 统计 学 上 的 关系 。( 岂 这 并 不 表示 
两 者 就 没关系 了 。 而 是 表明 了 研究 人 员 无 法 通过 研究 将 两 者 从 纯 随机 
事件 中 区 别 开 来 。 


最 后 ， 我 们 谈论 显著 性 差异 时 ， 可 能 会 页 到 一 些 一 定 要 将 P 值 控制 
在 0.05 的 统计 学 原理 (包括 标准 差 和 其 他 衡量 手段 的 理论 ; ， 这 些 原 
理 设 定 了 一 个 严格 的 界限 ， 让 一 些 没有 达到 这 个 值 的 人 觉得 恐慌 。 事 
实 上 ， 有 人 在 博客 上 发 表 了 509 个 经 过 同行 评审 的 期 刊 上 有 关 接 近 (但 
没有 达到 ) GEER ORI OR FLIER ES, 
如 : 


“与 显著 性 擦 身 而 过 ”。 


E 


N 


“与 传统 意义 上 的 显著 性 调 了 一 次 情 ”。 


“就 差 那 么 一 点 束 显 车 了 ”。 


“十 分 接近 显著 ”( 当 时 的 情形 下 ，P 值 为 0.05009) ° 
“在 显著 的 悬崖 边 艰难 迈步 ”。 


就 着 以 上 的 表达 ， 我 们 继续 。 


They did find one group of women— those who lived with a smoker for at least 30 years 
— that did show a higher risk for lung cancer, but even that finding was,according to the 


researchers, “of only borderline statistical significance. 


Matthew Hankins, “Still Not  Significant,"Probable Error blog, April 21, 
2013,https://mchankins.wordpress.com/2013/04/21/ still- not- significan-2/. 


抽样 大 小 事 关 重大 


《纽约 客 》 等 杂志 曾经 刊登 过 一 项 研究 。 在 那 项 研究 中 ， 人 研究 人 
员 做 了 一 系列 实验 ， 以 测验 人 们 是 否 在 饥饿 的 时 候 更 倾向 于 购物 。 人 四 


他 们 是 如 何 研 究 这 个 现象 的 呢 ? 在 其 中 一 个 实验 中 ， 他 们 调查 了 
81 位 从 百货 商店 出 来 的 顾客 。 现 在 ， 我 们 站 在 商店 出 口 处 ， 看 到 店 里 
的 顾客 似乎 不 止 81 位 ， 因 此 我 们 很 确定 这 个 数字 并 非 全 世界 顾客 的 总 
数 。 这 个 结论 引出 了 确定 显著 性 差异 的 关键 因素 一 一 抽样 。 


回忆 一 下 第 二 章 的 内 容 ， 抽 样 可 以 让 我 们 从 数据 总 体 中 售 算 结 
果 。 例 如 ， 问 每 一 个 美国 人 他 们 在 总 统 竞 选 的 时 候 想 投 谁 的 票 是 不 可 
能 实现 的 事 。 如 果 那 样 ， 你 束 得 打 很 长 时 间 电 话 了 。 因 此 ， 民 意 调 碍 
分 析 人 员 会 观察 总 体 的 样本 。 


但 是 抽样 并 非 无 懈 可 击 。 


我 们 在 第 二 章 里 讲 过 抽样 面临 的 一 个 问题 ， 束 是 你 可 能 想 解决 某 
个 问题 ， 却 观察 了 错误 的 数据 。 还 记得 “挑战 者 号 ”空难 吗 ? 调查 组 观 
察 了 过 去 执行 发 射 任务 时 气温 的 样本 ,但 只 看 了 出 现 O 型 环 事故 的 样 
本 一 一 他 们 应 该 看 的 是 所 有 发 射 任务 的 样本 。 


但 现在 ， 我 们 假定 你 观察 的 是 正确 数据 ， 试 想 一 下 另 一 个 重要 的 
问题 : 样本 是 否 从 统计 学 角度 告诉 你 有 关 总 体 的 信息 ? 换 名 话说， 你 
有 多 少 把 握 可 以 肯定 样本 正确 地 体现 了 其 余数 据 一 一 数据 总 体 ? 


简单 来 讲 ， 观 察 样 本 总 会 存在 一 定 的 不 确定 性 。 用 统计 学 术语 


说 ， 这 种 现象 叫 作 样本 误差 。 样 本 误差 体现 了 你 的 样本 有 着 多 大 的 不 
确定 性 。 样 本 误 关 之 所 以 存在 ， 是 因为 并 非 所 有 的 样本 都 征 相同 的 。 


哪怕 你 从 同一 个 数据 忌 体 取 了 两 个 相同 大 小 的 样本 ， 依 然 可 能 得 到 不 
同 的 结果 。 试 想 你 从 一 个 装 满 M&M 巧 克 力 豆 的 碗 里 随机 取出 5 颗 巧 克 
力 豆 ， 然 后 将 其 放 回 碗 中 ， 接 着 再 取 5 颗 。 两 次 取 到 相同 颜色 组 合 的 巧 
克 力 豆 的 可 能 性 有 多 大 ? 


研究 人 员 会 化 大 量 时 间 检 验 其 研究 的 功效 一 一 简单 来 讲 即 抽样 的 
大 小 和 其 推算 统计 结 采 能 力 之 间 的 程度 关系 。 你 作为 小 数据 的 接收 
者 ， 只 要 注意 样本 大 小 〈 一 个 具体 研究 结果 所 基于 的 数据 点 量 ) 对 研 
完结 采 是 否 存在 显著 性 差异 起 着 至 关 重 要 的 影响 。 


1. Alison Jing Xu, Norbert Schwarz, and Robert S. Wyer, Jr., *Hunger Promotes Acquisition 
of Nonfood Objects," Proceedings of the National Academy of Sciences 112, no. 9 (March 3, 
2015), http://www.pnas.org/content/112/9/2688.abstract;read the New Yorker overview here: 
Nicola Twilley, *The Good, the Bad, and the Hangry," New Yorker website, March 10, 2015, 
http://www.newyorker.com/tech/elements/ hunger- good- bad- hangry. 


你 有 多 大 把 握 ? 


还 记得 误差 范围 是 我 们 在 投票 时 表达 统计 置信 度 的 一 个 手段 吗 ? 
在 衡量 科学 研究 结 采 的 统计 可 信和 度 方 面 ， 还 有 一 个 类 似 《但 稍 有 不 
同 ) 的 工具 ， 名 为 置信 区 间 。 该 度量 标准 通 前 以 一 个 区 间 值 的 形式 出 
现 ， 而 不 像 误差 范围 一 样 用 “+” 表 示 。 但 这 两 者 的 功能 相同 ， 都 显示 了 
你 可 能 会 估计 (当然 ,假设 你 的 样本 是 随机 选取 的 ) 的 一 个 区 间 值 。 


和 误差 范围 一 样 ， 置 信 区 间 越 大 ， 区 间 内 包含 (整个 数据 总 体 中 
的 ) 真实 值 的 可 能 性 越 大 。 从 这 个 角度 设想 : 如 有 果 布 什 的 得 票 率 为 
10%， 那 很 可 能 他 真实 的 支持 率 为 5% 到 15% 之 间 的 某 个 值 。 从 统计 学 
上 讲 ， 他 的 真实 支持 率 不 太 可 能 落 于 一 个 较 罕 的 区 间 ， 如 8% 到 12% © 


于 是 便 涉 及 了 置信 水 平一 一 该 词 用 来 表示 我 们 正确 度量 数据 的 可 
信和 度 有 多 高 。 置 信 水 平 通常 以 百分数 形式 出 现 ， 表 示 样 本 包含 真实 值 
的 概率 有 和 多大。 


置信 区 间 和 置信 水 平 在 科学 论文 和 科学 研究 中 应 用 广泛 ， 而 在 针 
对 科学 论文 和 人 研究 的 媒体 报道 中 所 见 其 少 。 这 存在 问题 ， 因 为 一 旦 离 
开 了 和 置信 区 间 和 置信 水 平 ， 就 无 法 知道 事情 的 全 部 真相 。 


比如 ， 美 国 国家 公共 电台 有 一 篇 文章 说 每 天 喝 含 糖 饮 料 的 人 群 “<10 
年 后 患 上 (肥胖 症 ) 的 概率 会 上 升 18%”。( 针 根据 研究 报告 的 说 法 ， 这 
是 真 的 。 但 如 果 你 读 了 原始 材料 ， 你 会 发 现 18% 这 个 值 “置信 区 间 为 
8.8% 到 28%， 而 置信 水 平 为 95%”。( 晤 所 以 的 确 有 可 能 患 病 概 率 会 上 升 
18%， 但 更 加 准确 的 表达 方式 应 该 是 患 病 概率 的 幅度 在 8.8%~28% 之 
间 。 


置信 区 间 要 求 数据 接收 者 对 基本 数据 有 细致 的 理解 ， 而 单 看 媒体 
报道 很 可 能 做 不 到 这 一 点 。 我 们 并 非 针 对 美国 国家 公共 电台 、 美 国有 
线 电视 新 闻 网 或 者 任何 一 家 媒体 一 一 尽管 它们 深 深 伤害 了 我 们 这 些 热 
爱 数 据 的 人 ， 大 多 数 人 并 不 在 意 所 有 的 细 校 末世。 这 没关系 ， 你 不 需 
要 了 解 目 己 接触 到 的 每 一 个 研究 的 置信 区 间 ， 但 你 需要 知道 置信 区 间 
是 存在 的 、 置 信 区 间 的 定义 ， 以 及 置信 区 间 是 如 何 影响 你 每 天 接收 到 
的 数据 的 。 抑 或 ， 用 唐纳德 . 拉 姆 斯 菲尔德 的 话说 ， 你 要 能 够 分 辩 那 
eee ee 
pi o 


当然 ， 媒 体 对 数据 的 解读 和 本 来 结论 就 可 能 不 正确 的 原始 科学 研 
究 是 两 回 事 。 约 翰 - 安 尼 迪 斯 在 一 篇 题 为 “为 什么 绝 大 多 数 已 发 表 的 研 
究 结 果 是 错误 的 ”的 文章 中 写 道 ，“ 有 一 个 越 来 越 令 人 担心 的 问题 ， 即 
已 发 表 的 研究 报告 中 ， 有 大 多 数 ， 甚 至 绝 大 多 数 报告 所 得 出 的 结论 是 
pR o 


《科学 新 闻 》 有 文章 指出 : “如 果 你 还 信任 科普 读物 的 话 ， 你 就 不 
该 相信 科普 读物 文章 中 所 写 的 东西 。" 全 ) 


我 们 并 不 确定 安 尼 迪 斯 声 称 的 “大 多 数 ” 人 研究 结论 是 错误 的 这 一 许 
法 是 否 属实 ， 但 我 们 的 确 看 到 过 几 十 个 一 一 也 可 能 是 儿 百 个 一 一 公开 
发 表 的 研究 在 显著 性 差异 方面 做 得 令 人 担忧 。 现 已 出 版 的 研究 中 ， 数 
据 无 法 文 持 结论 的 情况 并 不 罕见 。 


1. Allison Aubrey, *Even if You're Lean, 1 Soda Per Day Ups Your Risk of Type 2 
Diabetes," NPR website, July 23, 2015, 
http://www.npr.org/sections/thesalt/2015/07/23/425635400/even-if- youre- lean-1- soda- per- 
day- ups- your- risk-of-diabetes. 


2. Fumiaki Imamura, Laura O'Connor, Zheng Ye, Jaako Mursu, Yasuaki Hayashino, Shilpa 
N. Bhupathiraju, and Nita G. Forouhi, “Consumption of Sugar Sweetened Beverages, 
Artifically Sweetened Beverages, and Fruit Juice and Incidence of Type 2 Diabetes: 


Systematic Review, Meta- Analysis, and Estimation of Population Attributable Fraction," BMJ 
351(2015), doi: http://dx.doi.org/10.1136/bmj.h3576. 


On February 12, 2002, Rumsfeld (former U.S. secretary of defense) appeared at a U.S. 
Department of Defense briefing and said: “There are known knowns;there are things we know 
we know. We also know there are known unknowns;that is to say, we know there are some 
things we do not know. But there are also unknown unknowns— the ones we don’t know we 
don’t know.” On Rumsfeld’s website (http://papers.rumsfeld.com/about/page/ authors- note), 
he says he “first heard a variant of the phrase ‘known unknowns’ in a discussion with former 
NASA administrator William R. Graham, when we served together on the Ballistic Missile 


Threat Commission in the late 1990s.” 


John P. A. Ioannidis, “Why Most Published Research Findings Are False,” Public Library 
of Science Medicine 2, no. 8 (August 30, 2005): doi:10.1371/journal.pmed.0020124. 


Tom Siegfried, “Odds Are, It’s Wrong,” ScienceNews 177, no. 7 (March 27,2010): 26, 


https://www.sciencenews.org/article/ odds- are- its- wrong. 


泄露 秘密 


如 果 你 读 了 《今日 医学 新 闻 》， 你 可 能 会 看 到 这 样 一 个 新 闻 标 
题 : “研究 显示 喝 咖啡 可 以 降低 患 上 子宫 内 膜 癌 的 风险 。” 当 


该 文章 解释 了 什么 是 子 让 内 膜 瘤 〈 你 可 能 将 其 当成 子 襄 癌 ) ， 并 
告诉 读者 有 一 项 研究 以 及 这 项 研究 的 发 现 ， 即 每 天 喝 大 约 4 杯 咖啡 能 够 
降低 女性 患 子宫 内 膜 燥 的 风险 。 


接着 ， 我 们 来 看 一 下 文章 的 第 6 段 :“ 受 访 女 性 完成 了 有 关 其 饮食 
的 调查 问卷 ， 研 究 人 员 评 估 了 其 摄 入 的 84 种 食物 及 营养 元 素 ， 以 及 串 
上 子宫 内 膜 癌 的 风险 n9 


因此 ， 和 研究 人 员 研 究 了 84 种 不 同 的 东西 ， 并 且 找 到 了 其 中 一 种 食 
物 能 够 降低 患 癌 风 险 e ©) 


你 应 该 记得 ， 显 著 性 差异 通常 基于 找到 结果 的 可 能 性 而 得 出 。 
此 ， 你 研究 的 对 象 越 多 ， 就 越 可 能 “发 现 ”* 显 著 性 差异 。 统 计 学 家 称 其 
为 多 重 比 较 问 题 。 如 果 你 检验 一 个 关系 ， 并 且 以 95% 可 能 性 为 标准 判 
上 晰 显著 性 差异 ， 那 将 会 有 98.7% 的 概率 在 84 次 测试 中 纯粹 随机 找到 至 
少 一 个 正面 结果 。 

咖啡 是 世界 上 人 们 研究 最 多 的 食物 之 一 。 事 实 上 ，Vocative.com 网 
站 上 有 一 篇 名 为 《我 们 放弃 了 ， 我 们 一 起 来 说 咖啡 是 万 能 灵 药 吧 》 的 
文章 9 中 指出 有 “ 约 2000 篇 论文 将 咖啡 称 为 某 种 预防 疾病 的 药 
Ej o 


足 足 2000 篇 论文 在 写 一 种 含有 1000 多 种 化 学 成 分 的 饮料 。 


VEST, WFR TELA BI Pes MEAS A, RI A o fs 
PRIF ° 


LA ERI IS ACR a MEM, BUDA: 缺少 效应 的 
证 据 (对 于 统计 学 发 烧 友 来 说 ， 即 无 法 拒绝 零 值 ) 不 同 于 有 证 据 证 明 
缺少 效应 (接受 零 值 ) 。 换 句 话说 ， 单 单 因为 无 法 证 明 某 事 发 生 ， 并 
“意味 着 某 事 就 没有 发 生 。 哪 怕 你 没有 听见 (或 看 见 ) 树林 里 有 树 倒 
下 ， 树 依然 有 可 能 倒 下 了 。 


1. Honor Whiteman, “Study Links Coffee Intake with Reduced Risk of Endometrial 
Cancer,” Medical News Today website, February 6, 2015, accessed August 13, 2015, 
http://www.medicalnewstoday.com/articles/288988.php. 


2. Whiteman, “Study Links Coffee Intake.” 
3. We thank Susan Dynarski for pointing this example out to us. 


4. Joshua A. Krisch, “We Give Up. Let's Just Say Coffee Cures Everything,” Vocativ 
website, January 26, 2015, http://www.vocativ.com/culture/ health- culture/ coffee- cures- 
cancer/. 


AUS TED NY BC TR CB E 


当今 世界 ， 很 容易 在 公开 发 表 的 研究 报告 中 找到 截然 相反 的 结 
论 。 二 手 烟 会 一 一 不 会 一 一 导致 肺 志 。 和 光 萄 酒 也 一 样 。 还 有 牛奶 、 
蛋 、 番 衣 、 马 铃 茵 、 咖 啡 ,甚至 玉米 ..…... 根 据 不 同 的 研究 报告 ， 会 导 
St (并 且 预 防 ! ) 癌症 的 食物 名 单数 都 数 不 到 头 。 


事实 上 ， 有 两 个 研究 人 员 决定 对 这 个 现象 展开 研究 ， 他 们 的 研究 


报告 题 为 《我 们 吃 的 所 有 东西 是 否 都 和 总 证 有 联系 ? ATES E 


他 们 首先 从 菜谱 中 选取 了 50 种 食材 ， 并 对 此 展开 研究 ， 后 发 现 50 
种 食材 中 有 40 种 “有 文章 表明 会 致癌 ”。( 时 


但 是 有 些 文 草 说 食用 这 些 食物 会 提高 患 上 癌症 的 风险 ， 而 男 一 些 
文章 指出 同样 的 食物 事实 上 会 帮助 预防 瘤 症 。 


所 以 ， 你 该 如 何 决 定 正 餐 吃 些 什么 呢 ? 


显 闭 性 差异 如 果 使 用 正确 的 话 ， 会 古 一 个 非常 有 用 的 工具 。 经 济 
FAT TKR BP EHS EMSS > BRABUS, KE 
TE CAAT TR) ESSERRBS E ESTEZ ^ RATA, SEK Ae BMA 
JE BSUESEIR E, ARAM ° HR: OER, SUT 
无 法 推翻 现存 的 文献 结论 的 ， 必 须 结合 该 领域 所 有 其 他 人 研究 一 起 来 
看 。 原 因 束 在 于 有 一 项 存在 显 闭 性 差异 的 研究 表明 X 能 够 预防 冶 症 ， 
并 不 能 表明 不 存在 另 一 项 研究 表明 X 不 能 预防 闫 钙 。” 


1. Jonathan D. Schoenfeld and John P. A. Ioannidis, *Is Everything We Eat Associated with 
Cancer? A Systematic Cookbook Review," American Journal of Clinical Nutrition 97 no. 1 


(2013): 127—134, doi: 10.3945/ajcn.112.047142. 


效 采 显著 


假设 你 在 一 家 制药 公司 工作 ， 你 公司 制造 一 种 能 够 延长 患 有 ALS 
( 卢 伽 雷 氏 病 ) 病人 生命 的 药品 。 你 经 过 研究 ， 确 认 该 药物 在 统计 学 
上 的 确 有 显著 效果 ， 该 药品 是 有 疗效 的 。 


现在 ， 关 键 问 题 是 该 药品 的 疗效 有 多 好 ? 可 以 延长 病人 一 天 生 
命 ， 还 是 一 个 月 生命 ， 还 是 一 年 生命 ? 


用 统计 学 术语 说 ， 这 称 为 效应 尺度 。 从 本 质 上 说 ， 尺 度 即 效应 
量 ， 是 判断 结果 是 否 有 意义 的 一 种 方式 。 没 有 尺度 ， 束 难以 了 解 某 事 
有 多 重要 。 思 考 下 面 两 个 陈述 : 

喝 咖 啡 能 够 降低 叫 上 癌症 的 风险 。 


喝 咖 啡 能 够 将 患 上 癣 症 的 风险 降低 18% © 


18% 即 尺度 一 一 (根据 这 项 研究 ) 咖啡 所 能 引起 的 变化 。 


Ti 


效应 量 和 是 否 存 在 显著 性 差异 不 同 。 某 事 存在 显赫 性 差异 并 不 意 
味 看 它 的 效应 是 巨大 的 抑或 十 微小 的 。 


需要 记 住 ， 效 应 尺度 会 根据 关系 的 不 同 产 生变 化 。 比 如 ， 你 可 能 
会 同意 一 个 平日 里 音 听 到 的 说 法 : 喝 水 对 你 有 好 处 。 但 喝 水 对 你 有 多 
大 好 处 取决 于 你 喝 多 少 水 。 为 FiveThirtyEight 网 站 撰文 的 欧 斯 特 博士 

(从 《美国 流行 病 学 期 刊 》 中 引用 了 一 篇 研究 报告 ) 发 现 <“ 喝 多 一 点 水 
能 够 降低 死亡 危险 ”。( 汪 不 论 男 女 ， 每 天 喝 超 过 三 杯 水 是 可 以 降低 死 
亡 危险 的 ， 但 如 果 你 喝 了 过 量 的 水 ， 则 会 致命 。 


E 


在 你 看 到 结果 的 时 候 ， 想 一 下 效应 尺度 。 比 如 ， 如 有 果 你 读 到 了 一 
SHUT Fe Fa CH OVARY CA PHB F E ARE”, PR EB) et IR 
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1. Emily Oster, “You Don’t Need 8 Glasses of Water a Day,” FiveThirtyEight Science 
website, posted September 30, 2014, http://fivethirtyeight.com/features you- dont- need-8- 
glasses-of-water-a-day/. 


这 个 研究 对 我 的 生活 重要 吗 ? 


就 算 你 手头 的 研究 存在 显著 性 差异 ， 就 算 你 手头 的 研究 效应 很 
大 ， 只 要 你 讲 的 是 在 日 常生 活 中 接收 数据 ， 那 你 能 问 的 最 关键 问题 就 
是 : “这 个 研究 将 对 我 的 生活 产生 怎样 的 影响 ? * 拿 我 们 所 说 的 咖啡 例 
子 来 看 。 多 喝 一 杯 咖 啡 对 降低 癌症 风险 有 多 大 “好 处 ”? 多 喝 咖 啡 能 把 
癌症 风险 降低 0.00001% 还 是 10%? 


回答 这 个 问题 能 够 凸显 统计 影响 和 经 济 影响 的 不 同 。 
统计 影响 就 古人 简单 地 说 明 是 的 ， 存 在 某 种 大 小 未 知 的 关系 。 


但 大 多 数 人 不 会 基于 统计 学 的 关联 性 做 决定 ， 而 会 观 罕 经 济 影响 
一 一 这 个 决定 会 花费 我 们 多 少时 间 、 人 金钱、 健康 或 其 他 资源 。 


我 们 询问 欧 斯 特 博士 《她 决定 在 孕期 吃 腌 制 肉 类 ， 尽 管 吃 这 个 食 
物 会 有 一 定 的 概率 感染 李斯 特 菌 ) 有 关 效 应 尺度 、 统 计 影 响 和 经 济 影 
响 的 对 比 ， 以 及 研究 人 员 和 大 众 的 关注 点 区 别 等 问题 。 


“我 觉得 应 该 这 么 讲 ，” 她 说 , “理论 上 的 危险 和 足以 引起 人 们 注意 
的 危险 之 间 是 有 差别 的 。 在 我 的 例子 里 ， 涉 及 了 李斯 特 菌 一 一 的 确 存 
在 腌 制 肉 类 中 含有 李斯 特 菌 的 情况 ， 但 也 有 案例 表明 李斯 特 梢 存在 于 
落 某 、 了 哈密瓜、 冰淇淋 中 。 所 以 你 的 确 可 以 通过 不 吃 腌 制 肉 类 在 极 微 
小 的 程度 上 降低 感染 风险 一 一 因此 可 以 理解 有 些 人 会 做 出 这 样 的 选 
择 ， 但 降低 危险 的 程度 很 小 。” 


显著 性 差异 起 了 作用 。 


但 在 许多 情形 下 ， 日 常生 活 中 ， 效 应 尺度 和 经 济 影响 起 了 最 大 的 


影响 。 


FF, WAVE 
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然 需 要 留心 我 们 在 本 书 中 提 到 的 其 他 因素 (遗漏 变量 、 离 群 值 等 ) ， 
除 此 之 外 还 有 其 他 的 一 系列 偏差 (证 实 偏差 、 选 择 偏差 等 c 


请 思考 : 


.在 子宫 内 膜 癌 的 研究 中 ， 根 据 WebMD (美国 最 大 的 医疗 健康 服 
务 网 站 ) 的 说 法 ， 研 究 人 员 * 找 到 了 喝 咖 啡 与 降低 子宫 内 膜 癌 风险 之 间 
的 联系 ， 但 这 个 联系 并 非 因果 联系 ”。( 屿 也 就 是 说 ， 这 两 者 之 间 存 在 
关联 性 ， 而 非 因果 性 。 


“根据 《PLoS 生 物 学 》 灯 志 的 说 法 ， 史 值 黑客 ”( 得 名 于 P 值 ) 
词 指 研究 人 员 “ 收 集 、 选 择 数据 或 统计 学 分 析 材 料 ， 直 到 非 显 著 结果 变 
成 显著 为 止 *。 人 党) 这 个 方式 与 * 有 目的 地 选择 ”类似 ， 打 个 比方 ， 就 好 比 
研究 人 员 抓 到 什么 就 往 墙 上 扔 ， 直 到 有 东西 粘 在 上 面 为 止 (尽管 有 可 
能 有 些 科 学 家 真 的 会 往 墙 上 扔 东西 ， 直 到 粘 上 墙 为 止 .…...) 。 


《纽约 客 》 上 有 一 篇 精彩 的 文章 ( 除 此 之 外 还 有 其 他 不 精彩 的 文 
章 吗 ? ) 讲 到 发 表 偏 倚 可 能 会 导致 让 显著 性 差异 效应 逐渐 降低 的 “降低 
效应 ”。 为什么? 一 位 统计 学 家 发 现 “ 已 发 表 的 带 有 显著 性 差异 的 心理 
学 研究 中 ， 有 97% 得 出 了 想 要 得 出 的 结果 *， 这 可 能 会 让 未 来 的 研究 难 
以 重复 得 出 这 些 结论 。 包 

.《 流 行 病 学 与 社区 健康 期 刊 》 上 有 一 篇 文章 指出 没有 证 据 表明 在 


英格兰 与 威尔士 减少 街道 夜晚 光照 会 导致 交通 事故 和 犯罪 率 上 升 。 但 
文章 作者 正直 地 承认 文 草 可 能 存在 选择 偏差 一 一 他 们 没 能 从 大 约 1/3 的 


当地 有 关 部 门 获得 数据 ， 并 说 : “当地 有 关 部 门 可 能 不 愿 合 作 ， 因 为 其 
认为 ， 或 知晓 当地 交通 事故 和 犯罪 率 上 升 是 减少 街道 夜晚 光照 引起 
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1. 


© 
仅仅 知道 某 事 存 在 显著 性 差异 ， 并 不 表示 融 万 事 大 吉 了 。 
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2010,http://www.newyorker.com/magazine/2010/12/13/ the- truth- wears- off. 
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了 解 目 己 所 看 到 的 是 否 重要 ， 从 而 成 为 成 熟 的 数 
faa 


仅 因为 目 己 被 数据 包围 ， 并 不 表示 你 束 要 使 用 这 些 数据 在 生活 中 
做 决定 。 下 面 有 5 件 你 可 以 立即 着 手 去 做 的 事 ， 以 此 了 解 目 己 所 看 到 的 
数据 是 否 真 的 都 有 用 。 


1. 确 定 所 看 到 的 结果 是 否 随机 出 现 。 作 为 一 个 成 熟 的 数据 接 
收 者 ， 常 常 需 要 在 观察 到 的 结 采 中 排除 那些 随机 出 现 的 。 你 也 许 接 触 
了 5 个 喜欢 吃 汉 堡 的 男性 ， 但 以 这 个 样本 来 判断 所 有 男性 中 有 百 分 之 几 
喜欢 吃 汉 堡 ， 这 个 样本 可 能 吏 太 小 了 。 也 许 你 遇 到 的 这 5 个 人 人， 十 世界 
上 唯一 喜欢 吃 汉 堡 的 人 群 。 在 许多 情况 下 ， 判 断 结果 十 否 随机 需要 一 
个 基线 ， 以 此 来 比较 你 所 得 出 的 结 采 。 


2. 要 了 解 ， 许 多 研究 发 现 其 实 是 基于 或 然 性 的 。 一 个 具有 “ 显 
闭 性 差异 ”的 研究 发 现 ， 也 仅仅 表明 结论 有 95% 的 可 能 性 落 在 置信 区 间 
内 。 仔 细 研 究 P 值 可 以 让 你 了 解 结论 有 多 少 可 能 性 并 非 仅仅 是 随机 出 现 
的 一 一 很 多 情况 下 我 们 会 得 出 可 以 确信 的 结论 ， 但 要 记 住 ， 我 们 只 是 
在 衡量 或 然 性 而 已 。 


3. 要 知道 ， 你 在 新 闻 标 题 中 看 到 的 数据 常常 是 范围 内 的 一 
个 值 。 不 论 表述 为 误差 范围 (投票 中 的 加 / 减 ) 还 是 置信 区 间 ， 研 究 
发 现 通 常 只 是 一 个 范围 内 的 估计 值 。 如 果 一 篇 报纸 上 的 文章 说 你 最 襄 
爱 的 候选 人 得 票数 为 42%， 那 真实 范围 可 能 要 加 上 或 减 去 几 个 百 分 
点 。 如 采 一 份 科学 研究 发 现 一 种 名 字 很 好 听 的 “ 花 知 ”食品 (Sf 
KR > ORR) 可 能 延缓 阿尔 殉 海 默 病 病 情 恶 化 的 速度 ， 置 信 区 间 
能 够 提供 其 作用 效果 的 范围 。 


4. 哪 怕 得 出 了 显著 性 差异 的 效应 ， 也 要 看 一 下 效应 量 。 如 果 你 
在 大 洋 里 游泳 ， 你 可 能 会 遭 到 次 鱼 攻击 ， 但 这 种 危险 的 概率 很 小 。 
Discovery.com 网 站 的 一 篇 文章 引用 佛罗里达 州 大 学 国际 次 鱼 袭 击 档 案 
指出 ， 实 际 上 你 “在 海滩 边 溺 水 的 概率 是 被 效 鱼 袭击 致死 的 概率 的 三 
倍 ”。 人 多) 你 很 容易 因为 最 新 发 现 有 某 种 事物 对 你 有 害 ， 或 其 他 可 能 面 
对 的 危险 而 心神 不 宁 一 一 所 以 这 就 是 为 什么 了 解 效应 大 小 很 重要 的 原 
o 


5. 思 考 数据 对 你 生活 产生 的 影响 。 如 果 你 生活 在 内 布 拉 斯 加 
州 ， 从 未 计划 出 海 ， 那 你 无 须 担心 会 被 姿 鱼 袭击 ， 不 论 姿 鱼 袭击 人 的 
概率 有 多 大 。 CYR, RAILS) 。( 时 如 果 你 生活 在 非洲 
你 可 能 会 更 担心 河马 。 根 据 盖 获 基金 会 的 说 法 ， 每 年 被 河马 获 击 致死 
的 人 人 有数 百 人 (与 此 相 比 ， 遭 次 鱼 获 击 致死 的 人 数 每 年 不 超过 12 
人 ) 。( 因 仅仅 因为 菜 个 研究 发 现 具 有 统计 影响 一 哪怕 效应 尺度 很 
大 ， 并 不 表示 其 对 你 每 天 生活 会 产生 经 济 影响 。 


1. Michael Reilly, “Shark Attacks: What Are the Odds?" Discovery News website, August 2, 
2010, http://news.discovery.com/animals/sharks/ shark- attacks- what- are- the- odds- 
20100802.htm. 

2. Sharknado 3, Syfy website, accessed August 20, 2015, http://www.syfy.com/sharknado3. 


3. Bill Gates, *The Deadliest Animal in the World," April 25, 2014, Gatesnotes website, 
http://www. gatesnotes.com/Health/ Most- Lethal- Animal- Mosquito- Week. 


第 六 章 非洲 为 什么 会 变 小 ? TE HH ay HH RE 


1544 年 ， 新 首 制 图 师 杰 拉 杜 斯 . 麦 卡 托 因为 散布 “ 异 剖 有 卯 说 ”被 判 入 
狱 。 显 然 ， 他 的 书信 和 游记 引起 了 地 方 当 局 的 猜 态 ， 当 局 容 妨 不 了 他 
同情 新 教 的 言论 。 


他 同时 期 有 不 少 人 都 因为 莫须有 的 徘 名 而 被 折 首 、 烧 死 或 活埋 ， 
而 麦 卡 托 则 在 入 狱 7 个 月 后 获释 ， 继 续 朝 着 当时 欧洲 顶尖 制图 师 的 方向 
前 进 。 


你 也 许 对 麦 卡 托 其 人 有 所 耳闻 。 要 是 没有 ， 你 应 该 见 过 他 的 作品 
可 能 束 挂 在 你 小 学 教室 黑板 的 旁边 。 尤 其 值得 一 提 的 是 ， 他 绘制 
SRR FMEA (1569 年 版 一 一 他 不 无 奔 炮 地 将 其 称 为 :“ 适 用 于 
航海 的 、 较 完善 的 新 版 地 图 。” ( 麦 卡 托 说 话 总 是 直 来 直 去 。) 


麦 卡 托 的 新 版 地 图 专 为 一 件 事情 而 绘制 ， 帮助 船员 更 为 准确 地 绘 
制 航线 。 阁 船只 在 某 一 航线 上 没有 改变 航向 ， 那 么 该 航道 就 用 直线 表 
示 ， 这 种 新 颖 的 方法 使 得 船长 在 运送 货物 时 更 加 轻松 目 如 。 


对 于 麦 卡 托 来 说 ， 这 种 绘图 技术 需要 一 定 的 技巧 ， 因 为 船员 在 立 
体 地 球 表面 的 航行 路 线 不 能 自动 地 转化 成 平面 地 图 上 的 直线 。 不 过 麦 
卡 托 做 到 了 ， 并 因此 名 利 双 收 。( 人 四) 


HRE, HOER EHI ie EARLY, Pe SE 
球 陆 地 和 国家 的 面积 。 船 员 为 了 获取 直行 航线 要 付出 极 大 的 代价 ， 原 
因 在 于 ， 支 卡 托 几乎 焉 曲 了 地 图 上 所 有 陆地 的 面积 。 ERE, X 
种 和 焉 曲 并 不 均衡 : 陆地 距离 亦 道 越 远 ， 和 在 曲 程度 越 广 重 。 
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图 6-1 麦 卡 托 投影 图 。CC BY-SA 3.0 协 议 文本 授权 许可 。 用 户 $200inaire 创 建 于 维基 共享 资源 
(https: //commons.wikimedia.org/wiki/File:Mercator_Blank_Map_World.png#filelinks) 


图 6-2 为 了 对 照 ， 这 是 温 克 尔 三 重 投影 图 (Winkel tripel projection) ° CC BY-SA 3.0 协 议 文本 
授权 许可 。 用 户 Hellerick 创 建 于 维基 资源 共享 (https: // commons.wikimedia.org/wiki/File: 


1937 world map. 9628Winkel tripel projection9629.svg) 
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对 更 大 。 这 幅 地 图 因 * 格 陵 兰 难题 "而 普遍 为 人 们 (至 少 是 为 制图 师 
们 ) 所 熟知 。 因 为 ， 在 麦 卡 托 地 图 上 ， 格 陵 兰 岛 看 起 来 似乎 和 非洲 一 
样 大 。 人 然而， 事实 并 非 如 此 ， 二 者 实际 上 相差 甚 远 。 


从 面积 上 看 ， 非 洲 面 积 几乎 是 格陵兰 岛 的 14 倍 ， 然 而 非洲 位 于 过 
道 (因此 ， 和 至 曲 程度 较 小 ) ， 由 于 格陵兰 岛 大 部 分 区 域 都 在 北极 圈 之 
内 ， 所 以 ,在 麦 卡 托 地 图 上 ， 格 陵 兰 岛 的 目测 面积 要 比 实际 面积 大 得 
多 。 


那么 ， 这 个 错误 会 导致 什么 问题 呢 ? 除了 造成 儿 代 学 生 困惑 不 解 
之 外 ， 我 们 所 担心 的 是 物体 的 大 小 ( 认 知 大 小 ) 会 对 现实 世界 的 真实 
含义 产生 影响 。 麦 卡 托 地 图 缩小 了 非洲 大 陆 实际 面积 ， 有 意 或 者 无 意 
Ha TAT he ` SR > BOSSE TE A HS ES A 
必 你 们 也 慌 得 这 一 点 。 不 管 你 们 是 要 计划 度假 、 发 动 战 争 或 者 仅仅 是 
为 了 争论 欧洲 与 非洲 名 轻 强 重 ， 陆 地 面积 都 举足轻重 。 


当然 ， 这 样 的 问题 不 是 麦 卡 托 地 图 所 独 有 的 一 一 将 三 维 数据 转化 
到 二 维 媒介 上 往往 需要 权衡 再 三 一 一 这 束 解 释 了 为 什么 会 存在 60 多 种 
公认 的 地 图 投影 。( 时 但 在 我 们 身边 无 处 不 在 的 被 焉 曲 数据 之 中 ， 麦 卡 
托 地 图 是 一 个 理想 的 范例 。 


读 完 本 章 你 会 发 现 ， 焉 曲 数据 的 情况 儿 乎 出 现在 生活 的 方 方 面 
面 。 不 论 你 是 在 阅读 年 度 报 告 ， 还 是 在 点 汉堡 包 ， 要 是 你 略 加 了 解数 
据 生 如 何 被 焉 曲 和 曲解 的 ， 那 么 你 吏 可 以 做 出 更 为 明智 的 决定 了 。 


1. Here's a very basic explanation of how it works: picture a globe inside a cylinder. Now, 
project each point on the globe straight out until it makes a mark on the cylinder. Unroll the 


cylinder, and you have a Mercator map. 


2. 


3. 


Another issue with the Mercator map is that, because it skews the size of objects so much 
at the poles, it's not uncommon for part of Antarctica to be cropped out. This has the effect of 
truncating the Southern Hemisphere, and therefore making the Northern Hemisphere appear 


larger in comparison. 


And you’re welcome to read all about them here: Melita Kennedy, “Understanding Map 
Projections,” Environmental Systems Research Institute Inc., 
2000, http://kartoweb.itc.nl/geometrics/map%20projections/understanding%20 
map%20projections.pdf. 


ZU 


当然 ， 要 是 你 打算 运用 数据 来 评 佑 人们 的 能 力 ， 你 应 该 确保 数据 
是 真实 的 一 一 完全 真实 ， 不 是 编造 出 来 的 ， 不 是 腾 断 出 来 的 ， 甚 至 不 
是 估算 出 来 的 。“ 维 加 拉 诉 加 利 福 尼 亚 ”(Vergara v.California) 一 案 并 
没有 做 到 这 一 点 。 案 件 中 ， 法 院 认为 加 利 福 尼 亚 州 的 终 映 教 职 法 使 得 
贫穷 及 少数 族 诊 学 生 受 到 不 称职 教师 的 拖累 。( 电 该 案例 围绕 学 生 的 测 
试 成 绩 是 否 可 以 反映 教师 的 授课 效果 及 教师 的 授课 效果 如 何 影 响 其 学 
生 等 假设 展开 的 。 


洛杉矶 最 高 法 院 法 官 罗 尔 夫 - 特 雷 乌 (Rolf Treu) 在 裁决 书 中 写 
道 : “加利福尼亚 州 请 来 为 其 辩护 的 专家 伯 利 纳 博 士 证 实 ， 加 利 福 尼 亚 
州 1%~3% 的 教师 极其 不 称职 。”* 当 


1%~3% 这 样 的 数据 似乎 有 些 言 过 其 实 了 ， 那 么 这 些 数据 是 从 哪里 
获取 的 呢 ? 


加 利 福 尼 亚 州 专家 证 人 戴 维 - 伯 利 纳 博士 还 引用 了 《Slate》 杂 志 
一 篇 《 读 了 才 相 信 》 的 文章 的 内 容 ， 说 道 :“ 这 是 我 的 猜想 ， 归还 补 
充 说 ,“ 并 没有 相关 的 数据 。?” 该 数据 仅 是 伯 利 纳 基 于 访问 “无 数 谋 
HZ Jah FRAY e 


伯 利 纳 在 《Slate》 杂 志文 章 的 言论 的 基础 上 ， 他 声称 1%~3% 是 预 
估 值 。 而 且 他 似乎 是 一 名 受 人 了 苯 敬 的 作家 、 美 国 国家 教育 研究 院 
(National Academy of Education) 会 员 ， 还 映 兼 亚利桑那 州立 大 学 名 


誉 教授 0 (=) 


我 们 大 力 文 持 人 人 享有 受 教育 权 和 平等 权 。 (约翰 担任 Appleseed 
董事 会 主席 ，Appleseed 是 一 个 倡导 公平 正义 的 国际 非 营利 组 织 。) © 
我 们 并 不 是 在 争论 审判 结果 、 由 此 这 来 的 后 果 或 者 是 伯 利 纳 的 资质 。 
但 是 ， 我 们 认为 此 类 的 声明 应 该 建立 在 确凿 的 数据 之 上 ， 或 者 用 其 他 
HIREK © 


可 能 这 样 的 事情 曾经 发 生 过 ， 但 不 能 将 其 作为 一 个 默认 的 事实 成 
为 法 官 判决 的 依据 。 


如 条 不 采用 这 种 估算 出 来 的 数据 的 话 ， 或 许 法 官 裁决 的 结果 会 有 
所 不 同 。 


再 或 者 一 个 会 影响 27.5 万 名 老师 及 600 万 名 学 生命 运 的 案例 会 有 截 
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1. Full disclosure: Mike’s wife is a teacher. Yes, she has tenure. No, she’s not in California. 


2. Beatriz Vergara v. State of California and California Teachers Association, Dept.58, No. 
BC484642 (August 27, 2014), http://studentsmatter.org/wp-content/uploads/2014/08/ 
SM Final- Judgment_08.28.14.pdf. 


3. Jordan Weissmann, “Fuzzy Math,” Slate website, accessed July 18, 2015, 
http://www.slate.com/articles/business/moneybox/2014/06/judge_strikes_down_california_s_t 
eacher_tenure_laws_a_made_up_statistic.html. 


4. “David Berliner,’ Arizona State website, accessed July 18, 2015, 
http://berliner.faculty.asu.edu/wordpress/. Oh, and in case you were wondering,the Sun Devil 
logo was designed by a former Walt Disney employee, and(according to some) supposedly 
resembles Mr. Disney in a not-so-flattering way. “Sun Devil Athletics,” the Sun Devils 
website, accessed July 18, 2015,http:/*www.thesundevils.com/ViewArticle.dbml? 
ATCLID=208256866&DB_OEM_ID=30300; Paul Lukas, “The Disney/ESPN Connection 
Suddenly Makes a Lot More Sense,” Uni Watch website, December 18, 2012, http://www. uni- 
watch.com/2012/12/18/ how- walt- disney- designed- the- umkc- mascot- character/. 


5. See Appleseednetwork.org for details. 


6. There were other issues with how Berliner's testimony ended up as a key point in the 


judge’s decision. For example, Berliner claimed that he never used the words“grossly 


ineffective." And his testimony (based on the Slate article) doesn't seem to directly link bad 


teachers to low test scores. 


柱状 图 和 饼 状 图 应 该 息 么 画 ? 


一 幅 恰 当 的 图 表 能 够 讲述 数据 背后 的 故事 ， 帮 助 你 弄 清楚 数据 之 
间 的 关系 ， 从 而 让 你 做 出 更 好 的 决定 。 大 征 图 表 不 当 ， 即 使 有 无 比 翔 
实 的 数据 集 ， 也 会 让 你 觉得 一 团 乱 麻 。 


比如 说 ， 我 们 想 弄 明白 每 周 运 动 时 间 与 人 们 寿命 之 间 的 关系 ， 那 
么 我 们 会 采用 调研 所 得 出 的 数据 ， 记 录 参 与 者 每 周 的 运动 量 ， 及 随 着 
时 间 的 推移 对 参与 者 死亡 率 造成 的 影响 。( 人 四 


每 周 运动 时 长 死亡 率 减 少 比 率 
0 
0~7.5 20% 
7.5~15 31% 
15-22.5 379, 
22.5~40 39% 
40~75 39% 


如 数据 所 示 ， 当 每 周 运 动 时 长 从 0 增加 到 0 一 7.5 小 时 这 一 区 间 时 ， 
死亡 率 会 降低 20%。 随 着 运动 时 长 的 增加 ， 和 死亡 率 会 持续 降低 ， 不 过 
在 此 之 后 ， 运 动 的 好 处 就 开始 趋 于 稳定 。 因 为 个 人 每 周 的 运动 时 长 如 
果 在 75 小 时 以 上 上， 死亡 率 减 少 的 比率 职 跌 至 每 周 运动 时 长 在 7.5 一 15 小 
时 对 应 的 同等 水 平 。 

那么 ， 我 们 把 数据 转化 成 图 再 看 : 

( 96 ) 

45 

40 


死亡 率 减少 的 比率 


(小 时 ) 
0 0-715 7.5-15 15-22.5 22.5-40 40-75 >75 


每 周 运动 时 长 
图 6-3 运动 时 长 与 死亡 率 减 少 的 关系 
该 图 显示 运动 市 来 的 好 处 是 不 断 增加 的 ， 但 随 着 运动 量 的 进一步 
上 升 ， 运 动 带 来 的 好 处 实际 上 不 再 增加 了 (后 来 还 下 降 了 ) 。 
接着 ， 来 看 看 我 们 可 以 如 何 操纵 数据 。 


假设 你 经 营 一 个 健身 房 ， 你 想 向 你 的 临时 顾客 说 明 ， 他 们 只 需 稍 
加 经 常 运动 ， 避 ® 可 能 会 延 年 益 奉 。 你 可 以 用 这 些 数据 ， 做 如 下 图 : 


(96) 


死亡 率 减少 的 比率 


(小 时 ) 
0-75 75-15 15-225  22:5-40 40-75 75 
每 周 运 动 时 长 


图 6-4 我 们 操纵 过 的 数据 


这 幅 图 跟 第 一 幅 图 采用 了 完全 相同 的 数据 ， 我 们 所 做 的 只 不 过 厦 
删 去 了 0~7.5 小 时 所 对 应 的 数据 (随后 所 有 图 表 都 会 这 么 做 ) ， 将 y 轴 
(垂直 数 轴 ) 的 起 点 设 为 20 〈 而 不 是 0) ， 在 40 处 截止 ， 稍 稍 高 于 数据 
的 极 值 。 看 到 其 中 的 区 别 了 吗 ? 还 有 一 一 或 许 更 重要 的 是 一 一 看 明日 
这 幅 图 十 如 何 使 你 想 要 每 周 在 健身 房 伦 上 7.5 个 小 时 以 上 的 时 间 了 吗 ? 


如 采 我 们 确实 想 要 强调 运动 的 好 人 处， 可 以 如 图 6-5 所 示 ， 使 x 轴 
(水 平 数 轴 ) 只 显示 到 22.5~ 全 40 小 时 处 ， 以 此 消除 持平 及 下 降 的 趋 
势 。 

从 这 幅 图 来 看 ， 我 们 就 制造 了 一 种 假象 ， 似 乎 运动 时 间 越 长 ， 好 
处 越 多 。 


现在 ,假设 你 的 男 一 半 一 直 央 求 你 去 健 喘 房 锋 炼 ， 增 强 体质 、 延 
长 到 命 。 而 你 却 更 喜欢 福 在 沙发 上 看 电视 ， 因 此 你 想 使 运动 的 好 处 最 
小 化 。 你 可 以 采用 这 些 数 据 ， 绘 制 一 幅 图 6-6 这 样 的 图 : 


死亡 率 减 少 的 比率 


(小 时 ) 


0—7.5 7.5215 15-225 22.5-40 
每 周 运动 时 长 


图 6-5 x 轴 只 显示 到 22.5~40 小 时 处 


死亡 率 减少 的 比率 


(小 时 ) 


0-7.5 7.5-15  15-22.5 22.5-40 40-75 >75 
每 周 运 动 时 长 


图 6-6 降低 了 柱 形 条 的 高 度 的 图 


依然 是 完全 相同 的 一 组 数据 。 在 这 种 情况 下 ， 我 们 只 是 将 y 轴 的 起 
点 和 终点 分 别 设 为 15 和 95， 结 果 不 仅 降低 了 柱 形 条 的 高 度 ， 还 缩小 了 
它们 之 间 人 们 可 以 感知 的 区 别 (降低 的 风险 ) 。 


当然 ， 如 果 我 们 存心 想 迷 惑 你 们 
该 运动 ， 我 们 可 以 绘制 图 6-7: 


或 者 让 你 们 误 以 为 目 己 不 应 
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死亡 率 减 少 的 比率 


(小 时 ) 


> 75 40-75 22.5—40 15-22.5 7.5—15 0-7.5 
每 周 运 动 时 长 


图 6-7 x 轴 翻 转 到 另外 一 侧 的 图 


看 明白 我 们 做 了 什么 吗 ? 在 柱 形 条 图 中 ， 通 常 你 看 到 的 x 轴 是 从 左 
至 右 递增 的 。 而 一 旦 我 们 把 x 轴 翻转 到 另 一 侧 ， 除 非 你 确实 伦 时 间 去 读 
懂 所 有 的 标签 ， 不 然 你 会 觉得 运动 的 好 处 似乎 在 缓慢 增加 之 后 减少 。 


在 任何 类 型 的 数据 图 中 ， 都 需要 留意 这 类 “伎俩 ”。 比 如 ， 饼 状 图 
通常 用 来 表示 不 同 小 组 在 一 个 完整 的 数据 集中 所 占 的 百分比 ， 百 分 比 
总 和 为 100%。 所 以 ， 如 果 一 幅 饼 状 图 中 的 数据 之 和 为 193%， 真 是 会 
令 人 大 跌眼镜 的 o @) 

正如 x 轴 总 是 目 左 回 右 递增 的 ，y 轴 也 往往 是 从 下 往 上 递增 的 。 但 


若 我 们 翻转 y 轴 ， 柱 形 条 则 向 下 延伸 ， (在 一 看 ) 呈 负 相关 的 关系 。 如 
图 6-8 所 示 : 


每 周 运 动 时 长 
0—7.5 7.5—15 15-22.5 22.5-40 40-75 = 75 


(小 时 ) 


死亡 率 减 少 的 比率 


(% ) 


图 6-8 翻转 y 轴 的 图 


在 图 中 ， 还 需要 发 现 的 另 一 点 就 是 ， 要 看 数据 是 累积 式 的 还 是 增 
量 式 的 。 比 如 ， 倘 使 我 们 是 从 增 量 收益 的 角度 来 看 这 组 数据 会 怎么 样 
Vp? 每 当 运动 量 增加 的 时 候 ， 我 们 又 会 得 到 多 少 额 外 的 好 处 呢 ? 如 图 
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区 别 很 大 ， 对 吧 ? 你 只 需 花 钱 每 周 运动 几 个 小 时 就 能 从 中 收获 极 
大 的 好 处 ， 随 后 又 开始 下 降 每 周 运动 时 长 超过 75 个 小 时 之 后 其 实 
会 给 身体 造成 伤害 。 
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据 ， 因 为 这 能 将 负面 消息 转化 成 正面 消息 。 举 一 个 现实 生活 中 的 例 
子 ， 一 家 知名 科技 公司 通过 展示 手机 的 素 积 销量 来 突出 其 智能 手机 的 
销量 。 正 如 所 料 ， 柱 形 条 从 堪 至 右 持续 上 升 ， 因 为 在 素 积 式 图 表 中 每 
个 季度 的 销量 仅仅 是 和 先前 的 总 销量 素 积 在 一 起 的 。 而 前 一 个 季度 的 
销量 实际 上 下 降 了 ， 但 在 图 表 上 显示 不 出 来 。 只 要 公司 每 个 季度 至 少 


卖 出 几 部 手机 ， 那 么 在 累积 式 图 表 中 ， 也 看 不 出 来 销量 下 降 ， 仅 仅 是 
增加 得 少 而 已 。 人 中 


( 96) 


(小 时 ) 


—15 0 0-7.5 7:5-15 15-22.5 40-75 > 75 
每 周 运动 时 长 


图 6-9 从 增 量 收益 角度 绘制 的 图 


如 果 你 有 10 分 钟 ， 并 且 你 知道 如 何 使 用 电子 表格 应 用 程序 ， 你 可 
以 把 完全 相同 的 数据 用 多 种 不 同 的 方式 呈现 出 来 。 数 据 的 呈现 方式 也 
会 因数 据 要 对 读者 所 要 传达 的 信息 而 存在 巨大 的 差异 。 作 为 成 熟 的 数 
据 接收 者 ， 你 们 可 以 思考 一 下 潜在 数据 是 如 何 绘 入 图 表 之 中 的 及 它 所 
要 传达 的 真正 含义 。 人 后 ) 


1. Hannah Arem, Steven C. Moore, Alpa Patel, Patricia Hartge, Amy Berrington de 
Gonzalez, Kala Visvanathan, Peter T. Campbell, Michal Freedman,Elisabete Welderpass, Hans 
Olov Adami, Martha S. Linet, L-Min Lee,and Charles E. Mathews, *Leisure Time Physical 
Activity and Mortality" JAMA Internal Medicine, published online April 6, 2015, 
doi:10.1001/jamainternmed.2015.0533. 


2. Nathan Yau, *Fox News Makes the Best Pie Chart. Ever," Flowing Data website,accessed 
August 4, 2015. http://flowingdata.com/2009/11/26 fox- news- makesthe- best- pie- chart- 
ever/. The pie chart was aired on Fox Chicago, and the source was given as Opinion 
Dynamics. 


3. David Yanofsky, “The Chart Tim Cook Doesn't Want You to See," Quartz website, 
September 10, 2013, http://qz.com/122921/ the- chart- tim- cook- doesnt- want- you-to-see/. 


4. For a stunning look at how data can be captured, check out www. dear- data. com—‘“a 
year- long, analog data drawing project" by two extremely talented information designers: 
Giorgia Lupi and Stefanie Posavec, “Dear Data,"accessed June 7, 2015, http://www. dear- 


data.com/. 


微妙 的 图 


在 柱状 图 中 ， 你 往往 只 需 比 较 柱 形 条 的 高 度 (或 者 水 平 图 表 的 视 
BE) 。 但 如 果 你 手头 的 图 表 使 用 的 是 圆 ， 那 事情 可 能 会 变 得 有 些微 


以 美国 劳动 统计 局 (Bureau of Labour Statistics) 的 数据 为 例 ， 我 
们 实际 上 可 以 逐 时 细 分 普通 美国 民众 是 如 何 度 日 的 。( 思 来 看 一 下 我 们 
每 天 花 在 看 电视 与 社交 活动 的 时 间 对 比 __ 毫 不 意外 ， 结 果 大 幅 偏向 
看 电视 。2014 年 ， 我 们 平均 每 天 看 电视 的 时 间 为 2.82 小 时 ， 而 用 于 社 
交 活动 的 时 间 为 0.71 小 时 。 


那么 ， 你 画 两 个 圆 ， 用 每 个 圆 的 面积 代表 时 间 总 量 。 得 到 下 列 对 
比 图 ; 


看 电视 社交 活动 


图 6-10 用 面积 表示 时 间 总 量 


所 以 我 们 看 电视 的 时 间 更 多 ， 不 过 也 没有 多 太 多 ， 是 吧 ? 


现在 ， 依 照 同 一 组 数据 ， 我 们 再 画 两 个 圆 
表示 时 间 总 量 。 新 的 图 如 下 : 


这 次 用 圆 的 直径 来 


社交 活动 


看 电视 


图 6-11 用 直径 表示 时 间 总 量 


从 这 幅 图 来 看 ， 似 乎 我 们 太 多 的 时 间 都 在 电视 机 前 度 过 了 。 


这 年 为 什么 呢 ? 因为 数学 在 作怪 。 简 言 之 ， 一 个 圆 的 直径 和 面积 
并 不 是 一 回 事 。 任 何 一 个 中 学 生 都 能 告诉 你 ， 圆 的 面积 等 于 r 乘 以 半径 
的 平方 (S-m??) 。 因 此 ， 当 圆 的 直径 变 为 原来 的 2 倍 时 ， 圆 的 面积 实 
际 上 为 原来 的 4 倍 。 


正如 在 这 个 例子 中 看 到 的 ， 用 圆 的 直径 表示 数据 比 圆 的 面积 来 表 
示 数 据 更 能 为 你 们 呈现 出 其 中 的 差异 。 从 统计 学 层面 上 来 讲 ， 两 种 方 
法 本 身 都 没有 错 。 有 人 认为 用 面积 表示 数据 更 加 清楚 明了 ， 因 为 用 直 
径 来 表示 的 话 往往 会 仿 人 一 头 雾 水 。 毕 竟 ， 你 既然 能 采用 直径 (一 条 
直线 ) 表示 ， 为 什么 不 用 柱状 图 呢 ? 

无 数 的 时 间 (及 诉讼 费 ) 都 用 在 对 这 些 现实 问题 的 争论 上 了 。 我 
们 的 目的 不 是 提供 一 个 定论 ， 仅 仅 是 为 了 让 你 们 下 次 看 到 用 圆 表示 的 
数据 时 ， 停 止 争 论 ， 多 问 问 为 什么 。 包 


2. 


“American Time Use," Bureau of Labor Statistics website, http://data.bls.gov/ cgi- 


bin/surveymost?tu. 


For a discussion of what type of visualization to use, check out our blog post on the topic 
at http://www.johnhjohnsonphd.com/blog2/blog/2015/4/18/a-guide-to-data-visualization. 


图 表 让 人 看 起 来 更 值得 信任 


视觉 图 形 还 可 以 让 数据 看 起 来 更 加 可 信 。 正 如 《哈佛 商业 评论 》 
所 所 到 的 ， 引 用 了 康 共 尔 大 学 的 研究 成 采 ,“ 当 有 关 新 药 疗 效 的 声明 以 
文本 形式 呈现 出 来 时 ，67% 的 人 研究 对 象 称 他 们 会 相信 ， 但 是 当 同 样 的 
声明 以 文本 和 一 幅 简单 的 图 表 一 起 呈现 时 ， 则 有 979% 的 人 会 相信 ”。 人 四) 
这 反映 出 我 们 在 茶 些 案例 中 所 遇 到 的 偏见 ， 在 这 些 案例 中 ， 效 采 不 坪 
用 数据 衡量 ， 而 是 通过 视觉 或 者 其 他 方式 表现 出 来 。 (这 类 似 于 “教条 
主义 ”。 在 拉丁 语 中 ，ipse dixit 意 为 他杀 口 所 述 "， 这 个 词 通常 会 用 在 
有 一 位 专家 说 某 件 事 是 真实 的 ， 而 这 件 事 情 之 所 以 真实 是 因为 专家 这 
么 说 了 。 就 好 比 你 过 去 常常 问 父 母 为 什么 你 必须 上 床 睡 觉 ， 他 们 回答 
说 “我 们 说 了 算 ” 一 样 。 实 际 上 ， 将 来 你 们 的 孩子 问 你 们 为 什么 非得 做 
某 件 事 ， 我 们 极力 推荐 只 用 “ipse dixi E ° ) 


下 次 你 看 电视 的 时 候 ， 记 录 一 下 有 多 少 商 业 广 告 中 会 有 身 着 日 大 
符 的 人 出 现 ， 这 古 医 学 或 者 科学 专家 典型 的 视觉 符号 。 有 上 暗合 的 意思 一 
清二 楚 一 一 这 是 你 们 应 该 信任 的 人 。 


我 们 赞成 ， 往 往 好 的 专家 比 普 通 人 更 加 专业 ， 更 加 值得 信赖 ， 而 
且 可 以 凭借 他 们 的 学 识 帮 助 我 们 加 深 对 重要 议题 的 理解 。 然 而 仅仅 披 
上 一 身 白 大 社 (或 者 手术 服 ， 抑 或 一 套 正装 ) 并 不 能 让 人 摇身一变 成 
ARX o 


记 住 ， 每 当 一 幅 图 像 出 现在 你 眼前 ， 那 都 是 有 人 有 意 为 之 ， 以 达 
成 某 一 日 的 。 比 如 ， 和 餐馆 亲 单 展示 出 来 的 图 标 和 照片 能 够 带动 销售 额 
上 涨 多 达 30% « (9) 


然而 我 们 可 能 需要 仔细 观察 一 下 这 些 视 觉 图 形 。 正 如 一 位 数据 记 
者 在 为 《 卫 报 》 的 撰文 中 精妙 绝伦 的 阐释 , “将 图 表 及 数据 可 视 化， 在 
绝 大 多 数 情况 下 仅 被 用 作 呈 现 最 终结 果 的 媒介 。 这 么 做 的 结果 便 是 人 
们 边 读 文本 边 想 ‘我 不 赞成 ;要 比 边 看 精心 准备 的 示意 图 或 线形 图 边 这 
BEREE” 


前 文 已 经 提 过 ， 这 里 再 次 重申 :作为 一 名 受过 训练 的 数据 接收 
者 ， 你 们 的 目标 应 该 是 在 获取 真实 的 信息 之 前 ， 不 断 深 入 挖掘 。 不 过 
这 么 做 往往 并 不 容易 。 这 有 走 为 什么 呢 ? FIAT FAREREI ERS 

(Bob Hoffman) 在 给 我 们 的 一 封 电子 邮件 中 指出 : “在 商界 中 见 到 的 
大 多 数 研 究 报道 不 会 把 主要 数据 、 问 卷 途 径 及 调查 方法 透露 给 我 们 。 
相反 ， 他 们 给 我 们 一 幅 图 表 或 者 邦和 干 个 结论 。 结 采 ， 我 们 很 难 知 道 研 
客 是 否 是 在 恰当 的 方式 下 开展 的 。” 


1. “To Make Your Claim More Believable, Simply Add a Graph," Harvard Business 
Review, https://hbr.org/2014/10/to- make- your- claim- more- believable- simply- add-a-graph. 
The original research is here: Aner Tal and Brian Wansink,“Blinded with Science: Trivial 
Graphs and Formulas Increase Ad Persuasiveness and Belief in Product Efficacy,” Public 
Understanding of Science, October 15,2014, doi: 10.1177/0963662514549688. 


2. “Menu Engineering: How to Raise Restaurant Profits 15% or More,” Menu Cover Depot 
website, accessed June 16, 2015, http://www.menucoverdepot.com/ resource- center/articles/ 


restaurant- menu- engineering/. 


e 


John Burn- Murdoch, *Why You Should Never Trust Data Visualisation,"Guardian 
website, July 24, 2013, http://www.theguardian.com/news/datablog/2013/jul/24/ why- you- 


should- never- trust-a- data- visualisation. 


对 所 有 数据 一 视 同仁 导致 曲解 数据 
男 一 种 曲解 数据 的 手段 是 哪怕 数据 并 不 对 等 ， 依 然 对 其 一 视 同 
仁 。 


假如 你 有 一 个 反对 拿 动 物 做 实验 的 朋友 ， 他 发 给 你 一 份 名 单 ， 上 
面 列 出 了 拿 动 物 给 其 产品 做 实验 的 公司 ， 并 要 求 你 抵制 这 些 公司 。( 针 ) 


如 果 纸 上 就 列 出 了 一 排 公 司 名 ， 或 印 满 了 公司 商标 ， 那 么 就 意味 
着 这 些 公司 要 因为 拿 动物 做 实验 承担 相同 的 责任 。 但 是 事实 采 真 如 此 
13? 


所 有 公司 拿 动物 做 实验 的 次 数 是 一 样 的 吗 ? 它们 都 使 用 了 同 种 类 
型 的 化 学 试剂 吗 ? 它们 的 实验 对 象 是 同 种 类 的 动物 吗 ? 


实际 上 ， 这 些 公 司 在 用 动物 为 目 己 的 产品 做 实验 时 采取 的 方式 不 
可 能 完全 对 等 ， 但 是 一 旦 它们 被 简单 地 罗列 在 一 张 纸 上 ， 束 会 被 误 认 
为 它们 是 一 样 的 。 号 像 给 你 的 妻子 发 信息 说 你 刚 吃 了 后 “ 炸 茵 条 和 胡 萝 
M” o 你 每 样 都 吃 了 10 个 呢 ? 还 是 号 了 2 根 衣 萝卜 、50 根 炸 划 条 ? 对 所 
有 的 数据 一 视 同 仁 ， 也 是 曲解 数据 的 一 种 形式 。 


在 主持 一 场 有 关 气 候 变化 的 辩论 时 ， 电 视 脱 口 秀 主持 人 约翰 : 奥 利 
38 (John Oliver) 极为 巧妙 地 阐释 了 这 一 观念 。( 电 在 典型 的 电视 辩论 
会 中 ， 话 题 的 正 反方 各 有 一 个 或 者 两 个 辩 手 ， 而 奥利弗 则 不 同 以 往 ， 
决定 正 反方 辩 手 的 人 数 要 体现 出 持 相 应 观点 的 人 数 。 因 此 ， 他 洲 请 了 
97 个 人 作为 正方 ， 认 为 气候 变化 是 真实 的 一 3 个 人 为 反方 ， 持 反对 观 
点 。 仅 凭借 这 一 简单 的 举动 ， 他 彻底 改变 了 普通 人 看 待 这 场 辩 论 的 视 
角 一 我 们 觉得 ， 这 或 许 正中 他 的 下 怀 吧 。 


1. 


2. 


“PETA’s Beauty Without Bunnies Program, Companies That Do Test on Animals," 
PETA, accessed June 7, 2015, http://www.mediapeta.com/peta/PDF/companiesdotest.pdf. 


Last Week Tonight with John Oliver, Episode 3: *Climate Change Debate," Last Week 
Tonight video, 4:27, HBO, May 11, 2014, http://www.hbo.com/ last- weektonight- with-john- 
oliver/episodes/01/03-may-11-2014/video/ climate- changedebate.html?autoplay-true. 


体会 有 和 仅 有 的 区 别 


仔细 玩味 以 下 句子 : 
22% 的 效 鱼 攻击 事件 是 致命 的 。 
仅 有 22% 的 效 鱼 攻击 事件 是 致命 的 。 


MEARE” (ony) 一 词 ， 我 们 就 不 会 很 重视 其 后 的 数据 一 一 这 
是 牌 曲 数据 的 另 一 手段 。 正 如 劳动 局 的 统计 员 所 阐释 的 ，“ 仅 有 ”一 词 
激发 了 一 种 对 某 些 与 众 不 同 的 事物 的 不 切实 际 的 期 待 。 


增删 文字 也 是 常见 的 曲解 数据 的 手法 。 


WIERE ÉL TERCER Ad Contrarian 里 反复 提 到 一 个 数据 ，60% 
的 人 说 他 们 使 用 QR 码 (四 。( 沁 霍 夫 曼 说 : “这 一 统计 数据 明显 是 胡说 八 
道 ， 然 而 刻板 的 人 们 却 似乎 把 它 当 真 了 。 任 何 生活 在 现实 生活 中 的 人 
都 明白 , 没有 人 使 用 QR 码 。” 时 


那么 60% 源 自 哪里 呢 ? 或 许 正如 圳 夫 曼 的 推断 ， 它 可 能 是 曾经 使 
用 过 QR 码 的 人 所 占 的 百分比 。 在 没有 上 下 文 对 数据 进行 界定 的 情况 
下 ， 霍 夫 曼 指出 : “以 一 种 取 巧 的 方式 陈 壕 真相 ， 事 实 由 此 被 彻底 牌 曲 
qas 


局 示 一 一 如 果 你 只 看 表面 数据 ， 你 可 能 把 握 不 了 人 全局。 除非 开口 
去 问 ， 否 则 你 不 知道 数据 是 否 被 焉 曲 或 者 被 删 减 了 。 


1. Bryan Beverly, “3 Old Tricks for the Analytics Hall of Shame,” All Analytics website, 
November 25, 2013, http://www.allanalytics.com/author.asp? 


section id-1828&doc. id-269454&f src-allanalytics sitedefault&utm, source-dlvr.it&utm 


medium=twitter. 
2, QR 码 是 二 维 码 的 一 种 ， 其 内 容 可 以 被 快速 读 取 。 编者 注 


3. A quick response (QR) code is a type of bar code that users can scan using their 


让 


smartphones to get video and other content. 


4. Bob Hoffman, *How Marketers Lie to Themselves," Ad Contrarian blog, April 20,2015, 
http://adcontrarian.blogspot.com/2015/04/ how- marketers - lie-to-themselves.html. 


油 表 显 示 油箱 为 空 为 什么 还 能 开 个 几 里 路 ? 
有 时 ， 故 意 蛋 曲 数据 不 是 为 了 误导 你 ， 而 是 为 了 帮 你 。 


如 果 你 芍 驶 过 一 辆 燃油 不 足 的 汽车 ， 或 许 会 注意 到 一 个 奇怪 的 现 
象 一 一 即便 在 油 表 指 针 显 示 油 箱 为 空 的 情况 下 ， 和 车辆 通常 还 可 以 继续 
行驶 。 从 这 个 数据 ( 油 表 ) 来 说 ， 你 应 该 是 没有 多 余 的 汽油 了 ， 但 实 
际 上 却 还 有 。 


假设 油 表 坏 了 ， 这 还 情 有 可 原 一 汽车 制造 商 知道 ， 大 多 数 人 不 
喜欢 燃油 耗 尽 的 情况 。 据 一 则 美国 广播 公司 新 闻 报 道 ， 福 特 
(Ford) 、 通 用 (GM) 和 克莱斯勒 (Chrysler) 均 为 美国 国内 司机 提 
供 了 一 个 “缓冲 器 ”( 尽 管 对 他 国 司 机 则 不 完全 尽 然 ， 他 们 可 能 希望 油 
表 读 数 更 为 精确 ) © 

那么 汽车 制造 商 做 了 什么 呢 ? 它们 这 么 呈现 数据 : 让 你 汽车 的 燃 
油 量 看 起 来 比 实际 燃油 量 少 。 所 以 ， 下 次 你 的 油 表 指 针 指 到 E_ 并 
且 汽油 没有 耗 尽 “记得 要 感谢 造 你 这 辆 车 的 人 。 


1. John Stossel, “Running on Empty" ABC News website, June 5, 2008, 
http://abcnews.go.com/2020/Stossel/story?id=3989000. 


造假 与 失误 


你 听 过 17000 和 名 英国 男子 怀孕 的 消 奶 吗 ? 


在 一 封 给 英国 医学 杂志 (British Medical Journal) 的 信 中 ， 三 名 医 
生 引 用 数据 表示 17000 多 名 男士 通过 英国 的 全 民 医 保 (National Health 
Service) 接受 了 住院 产科 服务 。 人 由 


显然 ， 这 是 假 的 。 男 人 们 连 换 尿 布 都 不 愿意 ， 更 别 说 让 他 们 怀胎 
十 月 了 。 男 人 怀孕 最 有 可 能 是 因为 医疗 编码 错误 。 换 句 话 说 ， 有 人 在 
医生 诊断 的 时 候 输 错 了 数据 。 


下 面 是 一 些 更 为 典型 的 例子 : 


. 鱼 的 那些 事 儿 _ 从 商店 或 者 餐馆 购 得 的 金枪鱼 样品 ， 其 中 599%6 
都 被 贴 错 了 标签 ， 常 常 ， 金 枪 鱼 实际 上 是 玉 梭 鱼 ， 属 蛇 铺 鱼 科 ， 可 能 
会 引发 一 些 身体 状况 ， 说 得 正式 一 点 ， 即 肠胃 不 适 . 


“就 为 了 评 UR) 星 级 一 一 在 一 次 秘密 行动 中 ， 纽 约 州 总 检察 官办 
公 室 人 员 发 现 很 多 公司 为 了 生意 在 Yelp (美国 最 大 点 评 网 ) ^ Google 
Local (谷歌 本 地 ) 等 网 站 上 编写 虚假 网 评 该 做 法 名 为 “草根 宫 
4” (astroturfing) ° 


“名 不 副 实 的 零 脂肪 一 一 美国 食品 及 药品 管理 局 (FDA) 批准 ， 
份 食物 脂肪 量 低 于 半 克 仍 可 以 称 作 “ 零 脂肪 ?。 因 此 ， 如 果 你 每 天 吃 多 
份 “ 零 脂肪 ”食物 ， 你 就 很 轻易 地 就 报 入 了 几 克 脂肪 。( 岂 


。 严 手 的 单元 格 一 一 正如 闵 博 商业 资讯 (Bloomberg Business) 所 
称 ， 它 是 “改变 历史 的 Excel 表 格 错误 ”。 加 两 位 哈佛 大 学 的 经 济 学 家 


— KI EAI (Carmen Reinhart) 和 肯 尼 斯 : 罗 格 夫 (Kenneth 

Rogoff) 一 一 因为 错误 的 推理 上 了 头条 ， 当 时 ， 在 一 篇 调查 政府 债务 

对 经 济 增长 的 影响 的 论文 中 ， 他 们 绘 错 了 电子 表格 ， 走 记 在 其 中 一 组 

运算 中 插入 5 个 空 行 ， 结 果 使 得 关键 结果 由 +0.2% 变 成 了 -0.1%。 
(《 经 济 学 人 》 还 指出 了 其 他 造成 运算 大 错 特 错 的 错误 。) 


1. Lauren Brennan, Mando Watson, Robert Klaber, Tagore Charles, “The Importance of 
Knowing Context of Hospital Episode Statistics When Reconfiguring the NHS,” BMJ 2012; 
344:e2432. 


2. Kimberly Warner, Walker Timme, Beth Lowell, and Michael Hirshfield,“Oceana Study 
Reveals Seafood Fraud Nationwide,” Oceana website, February 2013 
http://oceana.org/sites/default/files/reports/National_Seafood_Fraud_Testing 
Results FINAL.pdf. 


3. “Guidance for Industry: A Food Labeling Guide (9. Appendix A: Definitions of Nutrent 
Content Claims)?" U.S. Food and Drug Administration website, January 
2013,http://www.fda.gov/Food/GuidanceRegulation/GuidanceDocumentsRegulatoryInformati 
on/LabelingNutrition/ucm064911.htm. 


4. Peter Coy, “FAQ: Reinhart, Rogoff, and the Excel Error That Changed History,” 
Bloomberg Business website, April 18, 2013, http://www.bloomberg.com/bw/articles/2013- 
04-18/ faq- reinhart- rogoff- and- the- excel- error- that- changed- history. 


错误 数据 抹 掉 股市 1360 亿 美元 


还 有 错误 数据 抹 挥 股市 1360 亿 美元 的 时 候 。 
2013 年 4 月 23 日 ， 美 联 社 推 翌 账号 发 布 了 以 下 消 忆 : 


“ 重 磅 消息 ， 白 宫 发 生 两 起 爆炸 事件 ， 巴 拉克 .奥巴马 负伤 。” 


投资 者 惊慌 失措 ， 股 票 价格 骤然 下 跌 ， 标 准 普 尔 500 指 类 
(S&P500) 仅 在 两 分 钟 内 就 损失 了 1360 多 亿美 元 。 


一 切 都 是 因为 一 个 恶作剧 而 起 。 


当 人 们 意识 到 推 特 消 息 不 实时 ， 股 票 市 场 迅 速 恢复。 没有 爆炸 事 
件 发 生 ， 奥 巴 马 总 统 也 没有 受伤 。 但 是 如 果 你 持 有 股票 或 者 共有 共 
金 ， 在 这 惊 心 动 鲍 的 几 分 钟 里 ， 虚 假 数据 会 对 你 的 证 券 投 资产 生 极为 
真切 的 反 啊 。 


(10 亿美 元 ) 


9:30 10:00 10:30 11:00 11:30 12:00 12:301:00 1:30 2:00 2:30 3:00 3:30 4:00 


图 6-12 可 以 看 出 下 午 1 点 之 后 ， 陡 降 的 标准 普尔 500 指 数 (S&P500) 


不 要 相信 维基 百科 


最 后 ， 我 们 来 谈 一 谈 广 受 好 评 、 历 史 悠 久 的 维基 百科 
(Wikipedia) ， 以 此 作为 焉 曲 数据 的 收尾 。 很 多 大 学 生 的 学 期 论文 都 
是 在 该 网 站 的 帮助 下 完成 的 ， 用 维基 百科 自己 的 话 来 说 ， 它 们 提供 “ 公 
开 的 、 可 编辑 的 内 容 *。 (9 


作为 一 个 聪明 的 数据 接收 者 ， 看 到 最 后 这 句 一 “公开 的 、 可 编辑 
的 内 容 ”， 应 该 会 顿 一 下 。 如 果 任 何 网 民 都 可 以 在 这 个 全 世界 最 受 欢迎 
的 网 站 更 新 内 容 ， 究 竟 赁 什么 要 相信 上 面 的 信息 ? 答案 很 明了 :不 能 
相信 。 人 (转正 如 该 网 站 所 注 明 的 那样 , “尽管 网 站 上 有 些 内 容 具有 很 高 
的 学 术 价值 ， 但 也 存在 被 公认 为 彻头彻尾 的 垃圾 信息 ”。 © 


所 以 ， 如 有 果 你 打算 依赖 维基 百科 ， 要 确保 核实 过 上 面 内 容 的 来 
源 。 


1. *Wikipedia: About," Wikipedia, accessed June 13, 2015, 
https://en.wikipedia.org/wiki/Wikipedia: About. 


2. That said, even when the data does come from a trusted media source, you should at least 
recognize the fact that a few large media conglomerates are responsible for much of the news 
and entertainment you consume on a daily basis, which could have a significant effect on what 


you see and hear. 


3. “Ten Things You May Not Know About Wikipedia," Wikipedia, accessed June 13, 2015, 
https://en.wikipedia.org/wiki/Wikipedia:Ten things you may. not know about Wikipedia Y 
ou, can.27t actually change anything in Wikipedia.E2.80.A6. 


过 了 保质 期 的 食品 能 不 能 吃 ? 


在 这 一 章 ， 到 目前 为 止 ， 我 们 的 关注 点 都 集中 在 了 数据 被 焉 曲 的 
例子 上 一 一 人 个人、 公司 或 组 织 回 你 提供 了 不 太 真 实 的 数据 。 


另 一 方面 ， 你 需要 确保 目 己 没有 曲解 真实 的 数据 。 


比方 说 ， 食 品 一 过 包装 袋 上 的 保质 期 ， 有 的 人 就 会 立刻 把 它们 丢 
掉 ， 如 果 你 是 其 中 一 员 ， 也 许 每 年 你 会 当 费 卸 数 百 甚至 更 多 类 元 。 那 
征 因 为 大 多 数 人 所 理解 的 食品 保质 期 根本 不 是 保质 期 。 


据 美国 农业 部 (USDA) 下 属 单位 食品 安全 监察 局 的 说 法 ， 许 多 
食物 过 了 包装 上 的 日 期 之 后 依然 可 以 食用 。 实 际 上 ， 日 期 代表 的 不 是 
有 效 期 ， 而 在 大 多 数 案例 中 ， 代 表 的 则 是 产品 质量 峰值 的 日 期 。 有 些 
州 规定 某 些 食品 需要 注 明 日 期 ， 但 是 一 般 情 况 下 ， 联 邦 政府 规章 不 要 
求 注 明日 期 ， 婴 儿 配 方 奶粉 除外 。 


下 面 是 一 些 直接 摘自 美国 农业 部 的 网 站 的 参考 资料 ，( 尖 


“销售 日 期 (Sell-By date) 和 是 要 告诉 店家 展销 商品 需要 多 长 时 间 。 
你 们 应 该 在 过 期 前 购买 商品 。 


“在 此 日 期 或 此 日 期 前 食用 最 佳 (Best if Used By or Before) ， 该 
日 期 用 米 给 那些 想 要 获得 最 佳 口感 及 质地 的 消费 者 提供 建议 。 它 不 是 
购买 日 期 或 者 安全 食用 日 期 。 


“保鲜 期 (Use-by date) 即 产品 质量 能 够 保持 峰值 的 最 后 日 期 ， 该 
日 期 由 产品 制造 方 确定 。 这 如 是 说 ， 美 国 农业 部 通常 会 建议 人 们 根据 


保鲜 期 食用 食品 ， 也 建议 将 鸡蛋 置 于 冰箱 的 冷冻 室 里 ， 而 不 是 放 进 冰 
箱 就 行 。 


因为 这 三 种 类 型 日 期 一 三 者 都 不 是 真正 的 保质 期 一 人们 很 容 
易 对 隐藏 在 数据 背后 的 含义 困惑 不 解 。 实 际 上 ， 根 据 美国 自然 资源 保 
PERS (NRDC) 引 自 食 品 营销 协会 的 研究 结果 来 看 ， 对 日 期 的 困 
惑 “ 致 使 90% 的 美国 人 扔 掉 了 本 不 该 扔 的 食品 ”。 (2) 


所 谓 “ 保 质 期 "这 一 说 法 在 小 数据 领域 为 人 们 上 了 精彩 的 一 课 ， 
为 它 曾 明了 解数 据 所 代表 的 含义 有 多 重要 。 食 品 制 造 商 没有 至 曲 “保质 
期 ”， 但 是 人 们 理解 数据 的 方式 则 可 能 使 很 大 一 部 分 预算 付 诸 东 流 。 
o 


1. *Food Product Dating," United States Department of Agriculture website,accessed June 
16, 2015, http://www.fsis.usda.gov/wps/portal/fsis/topics/ food- safety- education/ get- 
answers/ food- safety- fact- sheets/ food- labeling/ food- product- dating/ food- product- 
dating. 


2. “Environmental Issues: Food and Agriculture, the Dating Game," Natural Resources 


Defense Council, accessed June 16, 2015, http://www.nrdc.org/food/expiration- dates.asp. 


e 


Read our full blog post on this topic— including some details on how much money 
wasted food might cost us—"Everydata of Expiration Dates," the John H. Johnson, PhD Blog, 
May 18, 2015, http://www.johnhjohnsonphd.com/blog2/blog/2015/4/18/expiring-soonbut-so- 
what. 
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当 谷 歌 宣 布 收购 一 家 名 为 Nest 的 恒温 器 公司 时 ， 有 人 认为 他 们 可 
以 通过 购 入 交易 名 为 NEST 的 公司 的 股票 小 赚 一 笔 。 仅 在 一 天 之 内 
2014 年 1 月 14 日 ) ，NEST 的 股票 价格 就 上 涨 了 1900%。 


对 于 企图 一 夜 暴 富 的 人 来 说 ， 很 遗憾，NEST 不 是 Nest 公 司 的 股票 
和 名， 而 是 Nestor 公 司 的 股票 名 称 ， 而 Nestor 是 一 家 销售 交通 执法 系统 的 
公司 。 恒 温 器 公司 Nest 的 股票 并 没有 公开 交易 ， 尽 管 自 2015 年 起 ， 它 
归 谷 歌 建立 的 控股 公司 Alphabet 所 有 。2009 年 ，Nestor 进 入 破产 管理 流 
程 ,没有 资产 剩余 。 


这 一 数据 是 精准 的 。 谷 歌 收购 Nest 的 消息 是 确 峡 无 误 的 ， 然 而 投 
资 者 没有 去 核实 ， 结 果 购 买 了 仙 股 名 而 不 是 谷歌 新 公司 的 股票 。 
Nestor fxs MEE PR T — RE BATES ARR ^ EB 1E20144E1 
月 14 日 这 一 天 即将 结束 时 ， 交 易 额 比 当 天 开盘 时 高 大 约 400 个 百分点 。 


1. 仙 股 最 初 源 于 香港 的 股市 ， 是 特 指 市 值 跌 至 ] 元 以 下 的 股票 ， 在 英语 中 被 称 为 penny 
译 者 注 


stock ° 


1/4 磅 牛肉 汉堡 与 113 磅 牛肉 汉堡 哪个 大 ? 


美国 人 不 擅长 数学 ， 或 者 说 ， 数 学 非常 烂 。 在 一 项 研究 报告 中 ， 
美国 人 的 数学 水 平 在 23 个 国家 中 排名 第 21。( 思 这 或 许 就 能 解释 为 什么 
A&W 和 餐厅 的 汉堡 会 失败 了 。 


据 《 纽 约 时 报 杂 志 》 报 道 称 ， 在 20 世 纪 80 年 代 ，A&Ww 连 锁 餐 厅 欲 
与 麦当劳 及 其 著名 的 “1/4 磅 牛肉 汉堡 " 争 个 高 下 。( 央 因此 ，A&W 决 定 
推出 1/3 磅 牛肉 汉堡 。 顾 客 认为 后 者 口味 更 佳 ， 结 果 却 销量 惨淡 。 显 然 
人 们 以 为 1/4 磅 的 汉堡 比 1/3 磅 的 汉堡 大 。 


为 什么 他 们 会 觉得 4 大 于 1/3 呢 ?因为 4 大 于 3。 

是 的 ， 这 是 真 事 ， 我 没 开玩笑 。 

人 们 误解 汉堡 的 大 小 ， 是 因为 他 们 看 不 惟 分 数 。 

在 研究 中 ， 我 们 发 现 很 多 人 在 比较 数字 、 分 数 及 百分数 时 很 吃 
力 。 一 项 著名 的 研究 发 现 ， 在 “1 万 人 中 有 1286 个 人 因 辣 症 去 志 * 与 “100 
个 人 中 有 24.14 个 人 因 癌 症 去 世 * 这 两 种 情况 当中 ， 人 们 会 认为 前 考 的 
癌症 的 风险 更 高 一 些 。( 当 (数据 基于 以 往 研究 ， 研 究 时 还 要 求 天 真 的 
参与 者 估算 死亡 率 。) 


如 果 你 自己 算 一 下 的 话 ， 轻 易 就 能 看 出 1286/10000 小 于 
24.14/100 » 问题 在 于 许多 人 不 知道 如 何 计算 ， 或 者 他 们 只 是 简单 地 猜 
想 首 个 选项 必定 风险 更 高 ， 因 为 1286 大 于 24.14。 


你 该 如 何 解决 这 个 问题 呢 ? 除了 时 光 倒 流 ， 当 一 名 三 年 级 的 数学 
老师 之 外 ， 你 还 可 以 在 想 让 人 们 比较 数据 大 小 的 时 候 ， 先 把 数据 格式 


> m 


JL 


我 们 明白 ,一 眼看 出 24.14/100 大 于 1286/10000 对 很 多 人 来 说 并 非 


易 事 ， 但 是 也 难以 辩驳 2414 大 于 1286 的 事实 。 


1. 


The study included a *nationally representative sample of 5,000 adults between the ages 
of 16 and 65,” with “similar nationally representative samples" from other countries. On the 
numeracy test, “Compared with the U.S. average score,average scores in 18 countries were 
higher, in 2 countries they were lower, and in 2 countries they were not significantly 
different." So, while the U.S. was listed 21st out of 23, numbers 19 (Ireland) and 20 (France) 
were not "significantly" higher: Madeline Goodman, Robert Finnegan, Leyla Mohadjer, Tom 
Krenzke,and Jacquie Hogan, *Literacy, Numeracy, and Problem Solving in Technology Rich 
Environments Among U.S. Adults: Results from the Program for International Assessment of 
Adult Competencies 2012: First Look," U.S. Department of Education, National Center for 
Education Statistics, NCES 2014- 008, October 2013, 
http://nces.ed.gov/pubs2014/2014008.pdf. 


Elizabeth Green, *Why Do Americans Stink at Math?" New York Times Magazine 
website, July 23, 2014, http://www.nytimes.com/2014/07/27/magazine/why-do- americans- 
stink-at-math.html. 


Kimihiko Yamagishi, “When a 12.86% Mortality Is More Dangerous Than 24.14%: 
Implications for Risk Communication," Applied Cognitive Psychology 11 (1997): 495- 506. 


如 何 明智 地 接收 被 焉 曲 (BRT REE HH) 的 数据 


数据 被 焉 曲 或 者 曲解 的 方式 不 一 而 足 ， 但 是 想 委 做 一 名 明智 的 数 
据 接 收 者 ， 你 可 以 从 下 面 5 件 事 做 起 。 


1. 磁 到 图 表 时 ， 仔 细 观 察 x 轴 和 y 轴 。 简 单调 整 比例 、 高 度 或 
单个 (或 者 两 个 ) 数 轴 的 其 他 方面 来 传达 出 完全 不 同 的 信息 ， 这 对 有 
些 人 来 说 轻而易举 。 比 例 的 起 点 终点 在 哪里 ? 数字 在 增长 还 是 在 下 
跌 ? 图 表 是 否 鸿 盖 了 所 有 相关 数据 ? 这 些 都 是 你 可 以 问 的 问题 。 


2. 留 意 语言 表达 。 文 字 究竟 表达 了 什么 ? 若 一 家 工厂 称 “ 最 
近 ” 都 没有 事故 发 生 ， 这 意味 着 什么 ?由 谁 来 界定 什么 才 算 “事故 ”? 你 
FAN Aaa), (Ee RA CITY Bb Ze A AT] RAIS 
同样 重要 。 


3. 核 实 信息 源 。 仅 仅 因为 你 在 网 上 看 过 (从 老板 那里 听 过 ， 或 
者 在 报纸 上 读 到 过 ， 再 或 者 看 过 电视 报道 .…..) 并 不 意味 着 它 真实 可 
靠 。 地 球 虽 然 是 圆 的 ， 但 假如 你 相信 地 平 说 协会 的 说 法 ， 你 就 会 对 此 


4. 确 保 数 据 无 误 。 正 如 《电讯 报 》 (Telegraph) 摘 引 咨询 公司 
Fl1F9 的 报告 所 提 到 的 , “几乎 有 15 的 大 企业 因为 电子 表格 出 错 而 蒙受 
财产 损失 人) 。 工作 做 完 要 仔细 检查 一 人 这， 检查 完毕 后 ， 再 检查 一 
JH o 


5. 正 确 解 读数 据 。 你 买 入 的 股票 ， 真 的 是 你 想 要 买 入 的 那 只 
吗 ? 你 知道 鸡蛋 使 上 保质 期 的 真正 含义 吗 ? 你 会 对 分 数 、 小 数 点 、 百 


分 比 之 间 的 区 别 感到 困惑 吗 ? 有 时 数据 没有 错 ， 但 是 会 因为 人 们 的 草 
率 、 无 知 等 因素 被 误解 。 


1. Actually, we found two flat earth societies in a quick search, both of which are called the 
Flat Earth Society: http://www.theflatearthsociety.org/cms/; http:/www.tfes.org/. Both accessed 
September 1, 2015. 


2. Rebecca Burn- Callander, *Stupid Errors in Spreadsheets Could Lead to Britain's Next 
Corporate Disaster," Telegraph website, April 7, 2015, 
http://www.telegraph.co.uk/finance/newsbysector/banksandfinance/11518242/ Stupid- errors- 


in- spreadsheets- could- lead-to- Britains- next- corporate- disaster.html. 
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的 苹果 和 胡萝卜 的 照片 。 父 母 总 想 把 最 好 的 留 给 下 一 代 ， 所 以 你 怀 着 
MES DSRS HAR . 


AGES f REAL, Bl eR Lei, WETER 
这 种 婴儿 食品 如 何如 何 好 ， 还 说 , “推荐 婴儿 食品 的 儿科 医生 中 ， 有 
4/5 推 荐 了 嘉 宝 (Gerber) ， 想 知道 为 什么 吗 ， 请 随时 来 电 咨 询 ，24 小 
H” o © 


嘉 宇 在 给 消费 者 的 电话 留言 中 反复 强调 这 一 论点 。 当 人 们 挨打 此 
公司 的 电话 时 ， 会 听 到 电话 那 尖 的 录 首 : “推荐 凤 儿 食品 的 儿科 医生 
HP. CHAISTETE T 3&3 o" 
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难道 不 是 吗 ? 


上 面 这 名 广告 词 对 那些 被 孩子 搞 得 睡眠 不 足 的 家 长 尤为 有 效 。 如 
果 4/5 的 儿科 医生 都 推荐 了 喜 宝 ， 那 融 意 味 着 仅 有 1/5 的 医生 未 推荐 ， 是 
吗 ? 并 非 完 全 如 此 。 


事实 上 ， 该 公司 调查 的 所 有 儿科 医生 中 ， 仪 有 12% 的 人 推荐 训 
宇 。 那 么 “4/5” 这 个 说 法 从 何 而 来 ? 


[o] Bi ZEEE UT T E JC AT SEU TIE SERES UI" © SE 
际 上 ， 你 可 能 自己 也 这 么 做 过 。 摘 樱桃 法 则 意味 着 你 从 数据 中 挑选 吸 
引 人 眼 球 的 例子 来 证 明 自 己 的 观点 ， 同 时 无 视 那 些 可 能 跟 自 己 观点 相 
悖 的 数据 。 嘉 宝 绝对 不 是 唯一 一 家 通过 筛选 数据 来 营销 的 公司 。 但 是 
在 这 个 特别 的 例子 中 ， 联 邦 贸易 委员 会 (FTC) — 美国 政府 机 构 ， 
职责 包括 防止 虚假 、 不 公正 的 商业 活动 ”深入 调查 了 嘉 宝 广告 中 的 
论点 ， 并 将 其 定性 为 “虚假 宣传 且 误 导 大 众 ”。 (时 


嘉 宝 并 没有 说 4/5 的 儿科 医生 推荐 了 他 们 品牌 的 凤 儿 食品 。 而 是 
说 ， 推 荐 婴儿 食品 的 儿科 医生 中 ， 有 4/5 推 荐 了 嘉 宝 。 公 司 只 采纳 了 推 
存 罗 儿 食品 的 儿科 医生 的 回答 ， 从 而 从 特意 拣选 出 来 的 数据 样本 中 选 
择 了 对 目 己 最 有 利 的 那 部 分 。 


进行 这 样 的 区 分 十 分 重要 ， 因 为 尤其 在 当时 ， 很 多 儿科 医生 因为 
顾虑 到 婴儿 食品 含有 糖分 、 添 加 剂 及 其 他 成 分 的 问题 ， 并 没有 对 其 进 
行 推荐 。 在 这 个 例子 中 ， 参 与 嘉 宝 问卷 调查 的 儿科 医生 中 ， 超 过 1/4 根 
本 没有 推荐 婴儿 食品 。 人 轧 若 嘉 宝 将 这 部 分 儿科 医生 算 入 其 调查 结果 
中 ，*“4/5” 这 样 的 说 法 就 站 不 住 脚 了 。 


值得 赞扬 的 是 ， 嘉 宝 很 坦率 地 承认 自己 是 如 何 利 用 儿科 医生 的 样 
本 并 和 作 选 数据 的 。 根 据 我 们 人 研究 过 的 案例 ， 瘟 至 通过 告诉 消费 者 它们 
只 谈论 推荐 婴儿 食品 的 儿科 医生 的 说 法 ， 以 此 证 明 自己 的 观点 是 正确 
HY ° 
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确切 地 说 ， 嘉 宝 一 开始 对 562 名 儿科 医生 进行 了 问卷 调查 。 据 联邦 
9 易 委 员 会 称 ，“ 其 中 的 408 名 反映 说 他 们 每 周至 少 会 向 自己 的 患者 推 
这 一 次 婴儿 食品 ”。( 汪 基于 “推荐 婴儿 食品 的 儿科 医生 中 ， 有 4/5 都 推荐 
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嘉 至 "这 一 说 法 ， 你 会 认为 这 408 名 儿科 医生 中 ， 大 多 数 人 都 认可 了 


a ~ 


事实 可 不 是 这 样 。 看 到 了 吧 ， 嘉 宝 不 仅 挑 选 最 优 数据 ， 它 还 优 中 
选 优 。 

因为 在 推荐 婴儿 食品 的 408 名 儿科 医生 中 ， 有 332 名 没有 推荐 某 一 
特定 品牌 。 他 们 只 说 ， 患 儿 每 周至 少食 用 一 次 婴儿 食品 。 

换 句 话说 ， 嘉 宝 没 有 将 没有 推荐 某 一 特定 品牌 嗣 儿 食品 的 儿科 医 
生 算 在 内 ， 而 只 将 推荐 婴儿 食品 的 医生 (A) 及 推荐 某 一 特定 品牌 的 
医生 (B) 计算 在 内 ° 
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图 7-1 推荐 某 一 特定 品牌 婴儿 食品 的 儿科 医生 


的 确 ， 入 选 出 来 的 儿科 医生 中 ， 有 4/5 推 荐 了 亮 宝 。 不 过 一 一 假如 
你 细 看 所 有 数据 一 一 那 只 占 了 数据 总 体 的 12%， 同 时 也 只 占 了 经 过 得 
选 的 样本 数据 (推荐 妥 儿 食品 的 儿科 医生 ) 的 16% ° 


数据 如 下 : 
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“408 人 回应 称 他 们 推荐 婴儿 食品 。 
“76 人 推荐 某 一 特定 品牌 

“67 人 推荐 嘉 宝 。 


因此 ， 如 果 你 膝下 有 子女 ， 当 你 看 到 或 者 听 到 了 其 中 一 则 广告 
时 ， 可 能 会 认为 45 的 儿科 医生 推荐 嘉 宝 。 即 使 你 留心 并 注意 到 数据 经 
过 了 篇 选 ， 你 可 能 认为 推荐 轻 儿 食品 的 儿科 医生 中 ， 有 4/5 推 荐 了 吉 
至 。 但 不 论 你 相信 那 种 ， 结 果 都 是 错 的 。 


当时 联邦 贸易 委员 会 下 属 单位 消费 者 保护 局 主管 朱 迪 . 伯 恩 斯 坦 做 
了 最 好 的 说 明 : “消费 者 被 引导 着 去 相信 嘉 宝 做 了 可 靠 有 力 的 研究 并 证 
明了 有 4/5 的 医生 推荐 嘉 宝 。 但 是 嘉 宝 完全 剔 除了 不 推荐 婴儿 食品 及 不 
推荐 特定 品牌 婴儿 食品 的 医生 ， 肆 意 自 改 研 究 结果 cS 
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12% 


推荐 某 一 特定 品 


(JEE ), 2% ETC 
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m, 27% 


推荐 婴儿 食品 但 不 是 
某 一 特定 品牌 ，59% 


图 7-2 所 有 被 调查 的 儿科 医生 


联邦 贸易 委员 会 过 于 公众 利益 科学 中 心 的 请 求 对 嘉 宝 提出 控诉 。 
使 嘉 宝 明确 声明 它 只 谈论 推荐 婴儿 食品 的 儿科 医生 的 说 法 ， 联 邦 贸 
易 委 员 会 依然 认定 嘉 宝 “或 明 或 上 暗 地 表 示 大 约 有 4/5 的 儿科 医生 推荐 嘉 
宝 "。 


换 句 话说 ， 即 使 嘉 宝 告诉 人 人们， 它们 只 将 推荐 婴儿 食品 的 儿科 医 
生 洱 凋 在 内 ， 算 选 出 最 有 利于 目 身 的 数据 ， 联 邦 贸易 委员 会 依然 认为 
有 些 消费 者 可 能 会 觉得 该 数据 运用 于 所 有 儿科 医生 。 联 邦 贸易 委员 会 
认为 ， 即 便 日 纸 黑 字 地 写 出 来 ， 消 费 者 也 不 能 恰当 地 解读 经 过 旬 选 的 
数据 。 


在 一 份 同意 令 中 ”我们 应 该 注意 的 是 ， 它 的 宗旨 仅仅 为 了 解决 
问题 ， 不 是 承认 违犯 了 法 律 ， 或 者 承认 所 控 事实 (而 非 裁决 事实 ) 为 
真实 的 “ 嘉 宝 同意 ， 以 后 专业 人 士 对 产品 任何 的 “推荐 、 支 持 、 代 
言 "必须 建立 在 < 可靠 有 力 的、 可 以 证 实 某 种 说 法 的 科学 依据 之 上 ”。 付 ) 


1. Even if you didn't want to pay attention, you still had to watch the commercial. DVRs 
and TiVo weren't readily available back then, and it was too much of a hassle to tape shows on 
your VHS player. And if you don't know what a VHS player is, go ask your parents. 


2; Federal Trade Commission, In the Matter of Gerber Products Company, Corporation, 
Case and Proceedings Docket | C-3744, last updated May 30, 1997, 
https://www.ftc.gov/sites/default/files/documents/cases/1997/05/c3744cmp.pdf. 


3. “About the FTC,” Federal Trade Commission website, accessed April 25, 2015, 
http://www.ftc.gov/ about- ftc: “FTC Accuses Gerber of False and Misleading 
Advertising,"Federal Trade Commission, March 12, 1997, https://www.ftc.gov/news- 


events/press-releases/1997/03/ftc-accuses-gerber-false-and-misleading-advertising. 


4. Federal Trade Commission, “FTC Accuses Gerber.” 
5. Federal Trade Commission, “FTC Accuses Gerber.” 
6. Federal Trade Commission, “FTC Accuses Gerber.” 
7. Federal Trade Commission, In the Matter of Gerber Products Company Corporation, 


Agreement Containing Consent Order, File Number 962 3175, accessed July 12, 2015, 
https://www.ftc.gov/sites/default/files/documents cases/1997/03/gerber.pdf. 


筛选 数据 的 “ 摘 樱桃 法 则 ” 


“ 摘 樱桃 > 一 词 源 于 人 们 伸手 从 树 上 采摘 樱桃 这 一 肢体 动作 。 僻 设 
想 一 下 你 在 楼 桃园 里 ， 站 在 梯子 上 ， 手 里 提 着 桶 ， 为 的 古 摘 下 满 满 一 
桶 能 够 在 市 场 上 销售 的 楼 桃 。 这 样 你 会 略 去 被 碰 伤 或 未 成 熟 的 那些 ， 
只 摘 下 色泽 最 住 的 痰 满 整 个 桶 。 所 以 ， 所 谓 摘 楼 桃 法 则 ， 即 只 选取 他 
人 想 要 的 那 部 分 数据 (REL) 。 


当然 * 摘 樱桃 ”还 有 其 他 含义 ， 比 如 只 摘 长 在 最 低 枝条 上 的 水 果 
( 打 个 比方 ) 。 例 如 ， 打 篮球 时 ,，“ 摘 楼 桃 的 人 ”是 指 游 走 在 对 方 复 入 
附近 的 球员 ， 等 待 队 友 远 距离 传 球 ， 然 后 他 /她 束 能 够 很 轻易 地 单 手 上 
篮 或 者 灌 篮 。 同 样 的 战术 在 水 球 比 赛 中 被 称 为 “海鸥 捕食 法 ”>， 之 所 以 
取 这 个 名 字 ， 可 能 因为 海 鸣 会 寻找 最 简单 的 途径 来 获取 食物 。 


不 过 ， 从 本 书 的 目的 出 发 ， 我 们 会 从 沛 选 数 据 这 一 角度 探讨 摘 楼 
桃 法 则 一 一 同时 名 略 与 期 竺 结果 育 道 而 驰 的 其 他 数据 一 一 从 而 说 明 我 
们 的 观点 。 或 者 ， 如 一 项 研究 报告 说 的 那样 ,，“ 取 其 精华 去 其 糟粕 ”。 
o 


那么 ， 为 什么 说 你 们 要 对 摘 楼 桃 法 则 多 留 个 心眼 儿 呢 ? 我们 在 第 
二 章 束 已 经 讲 过 ， 如 末 你 研究 相同 数据 的 不 同样 本 ， 可 能 会 得 到 截然 
不 同 的 结果 。 因 此 ， 大 你 存心 这 么 做 ， 那 大 可 以 采取 一 些 手段 ， 得 出 
你 想 要 的 结果 。 


假设 有 一 家 小 和 餐馆， 从 中 午 到 晚上 都 营业 。 某 一 天 ， 和 餐饮 老板 每 
着 整 点 克 数 一 下 融和 餐 人 数 ， 得 出 以 下 数据 : 


上 午 11 点 一 2 人 


中 午 12 点 一 25 人 


下 午 1 点 一 一 30 人 
下 午 2 扩 一 一 3 人 
下 午 3 点 一 一 0 人 
下 午 4 点 一 一 2 人 
下 午 5 点 一 一 28 人 
下 午 6 点 一 一 35 人 
晚上 7 点 一 一 5 人 
晚上 8 点 一 一 3 人 


次 日 ， 一 位 有 意 盘 下 这 家 店 的 人 来 到 店 里 ， 想 了 解 一 下 生意 怎 
ERE, “EMULE, “中午 及 晚上 时 间 全 部 满员 一 一 队 都 排 到 门 
外 面 去 了 ! ” 那 人 离开 了 ， 准 备 出 高 价 盘 下 这 家 小 餐馆 。 


过 了 一 会 儿 ， 和 餐 包 的 房东 走 过 来 ， 告 诉 矢 过 老 板 她 要 涨 一 倍 房 
租 。“ 您 行 行 好 吧 ! ?老板 说 ,，“ 和 餐馆 大 部 分 时 间 连 个 人 影 都 看 不 到 ! ” 
当然 ， 两 种 说 法 百分之百 都 是 真 的 一 一 但 也 百分之百 都 对 数据 做 


了 筷 选 。 如 末 你 只 看 中 午 、 上 晚上 束 餐 高 峰 期 的 数据 ， 和 餐饮 座 无 虚 遍 ; 
耕 你 只 看 中 午 和 晚上 之 间 的 时 段 ， 和 餐馆 几乎 空 无 一 人 。 同 样 的 数据 


一 一 依 选 出 的 不 同 的 样本 一 一 也 就 市 来 了 极其 不 同 的 结果 。 
1. “What Does ‘Cherry Picking’ Mean?" Wisegeek website, accessed August 11,2015, 


http://www.wisegeek.com/ what- does- cherry- picking- mean.htm. 


2. 


Edward J. Fox and Stephen J. Hoch, * Cherry- Picking," Journal of Marketing 69,no. 1 
(2005): 46-62. 


用 统计 学 的 观 挟 如 何 看 祸 不 单行 ? 


日 常生 活 中 我 们 想到 、 看 到 的 许多 既定 概念 其 实 根本 不 存在 ， 仅 
Dose EB UR oC E e 


想 想 * 好 事 逢 三 来 "这 种 概念 ， 或 者 是 “坏事 逢 三 来 "， 或 是 “好 人 没 
好 报 着 三 来 ”。 果 真如 此 吗 ? 还 是 你 对 数据 进行 了 筛选 ? 


2009 年 6 月 ， 迈 克 尔 杰克逊 、 法 拉 : 福 赛 特 (Farrah Fawcett) ^ X 
德 :麦克 马 洪 (Ed McMahon) 在 同一 周 之 内 相继 去 世 。 这 只 是 三 位 名 
大 一 起 去 世 的 二 个 例子 ， 有 是 吧 ? 


但 是 几 天 后 去 世 的 比尔 : 梅 斯 ， 还 有 2009 年 7 月 去 世 的 沃 特 :克朗 凯 
特 (Walter Cronkite) ， 还 有 在 1 月 去 世 的 约翰 : 厄 普 代 克 (John 
Updike) ， 又 如 何 解释 呢 ? 


美国 广播 公司 新 闻 发 布 了 一 位 数学 教授 的 评论 , “要 死 就 死 三 人 这 
类 说 法 纯 属 无 稽 之 谈 ， 而 且 在 至 少 两 个 层面 上 是 毫 无 意义 、 可 以 随意 
解读 的 * 洁 ) 。“* 不 仅 时 间 范 围 不 确定 ， 而 且 对 于 名 人 也 没有 明确 的 含义 
界定 。” 


换 句 话说 ， 如 果 你 想 说 ， 杰 克 逊 、 福 赛 特 、 麦 克 蕊 洪 之 死 证 明了 
名 人 要 么 不 死 ， 要 么 就 连续 死 三 人 。 你 得 首先 把 样本 集 限 定 在 2009 年 6 
月 23 日 到 6 月 25 日 之 间 ， 其 次 断定 谁 是 名 人 谁 不 是 名 人 。 我 们 仅仅 在 谈 
论 加 利 福 尼 亚 州 的 名 人 吗 ， 还 是 整个 美国 的 名 人 ， 为 什么 不 是 全 世界 
的 呢 ? 我 们 看 到 ， 维 基 百 科 上 的 2009 年 逝世 人 物 列表 中 并 没有 将 艾 德 . 
麦克 马 洪 列 入 其 中 (教训 : 不 要 人 云 亦 云 ) ， 但 是 同 在 2009 年 6 月 去 世 


的 一 名 日 本 职业 摔跤 选手 和 一 位 德 裔 英国 社会 理论 家 政治 家 却 赫然 在 
gi « 65) 


因此 ， 如 果 你 想 找到 三 位 名 人 几乎 死 于 同一 时 期 的 例子 ， 古 可 以 
实现 的 ， 而 如 有 果 你 想 找 到 两 位 名 人 死 于 同一 时 期 的 例子 ， 也 完全 能 够 
办 到 ， 甚 至 四 位 、 五 位 ..…... 随 你 想 要 几 位 都 行 。 这 都 取决 于 你 如 何 定 
义 名 人 ， 及 观察 的 时 间 范 围 。 换 句 话 说 ， 它 取决 于 你 如 何 抽取 (m 
Xe) 数据 。 


记 住 : 如 果 你 在 任意 选择 你 想 要 的 数据 来 文 撑 目 身 观点 ， 那 你 可 
REM eE TE TIRE ° 


1. John Allen Paulos, “Why Do We Believe That Catastrophes Come in Threes?,” ABC 
News website, July 5, 2009, http://abcnews.go.com/Technology/Whos Counting/story? 
id=7988416. 


2. “2009: Deaths,” Wikipedia website, accessed April 25, 2015, 
http://en.wikipedia.org/wiki/2009#Deaths. And no, we don’t recommend Wikipedia as a 
primary source. 


如 何 解读 体育 赛事 中 的 统计 数据 ? 


如 果 你 是 个 体育 迷 ， 你 兴 许 见 过 、 听 过 比 常 人 更 多 的 筛选 数据 的 
情况 。 试 想 : 在 1988 年 ， 你 正在 观看 一 场 世界 职业 棒球 大 赛 的 比赛 
一 -奥克兰 运动 家 队 对 阵 洛杉矶 道奇 以 。 第 九 局 下 半 场 ， 双 方 同 时 出 
局 。 我 们 刚 看 到 柯 殉 :吉布森 (Kirk Gibson) 打出 一 个 全 垒 打 ， 这 个 球 
的 精彩 程度 可 以 载 入 史册 ， 仅 几 分 钟 的 时 间 ， 电 视屏 幕 上 出 现 了 如 下 
数据 : “这 文 首 场 失 利 的 球 队 在 过 去 10 年 间 ， 参 加 了 10 届 世界 职业 棒球 
大 赛 ，7 次 获胜 S 0S) 


数据 筛选 是 如 何在 这 里 进行 的 呢 ? 首先 ， 解 说 员 仅仅 选择 提 及 在 
大 赛 中 获胜 或 者 失利 一 次 的 球 队 。 我 们 认为 ， 考 虑 到 比赛 正在 直播 ， 
这 可 以 理解 。 但 是 为 什么 他 们 将 样本 集 限定 在 过 去 10 年 内 呢 ? 为 什么 
不 是 过 去 5 年 内 ， 不 是 20 年 内 ， 不 是 30 年 内 ? 如 果 样 本 集 不 同 ， 那 么 所 
呈现 的 数据 ， 依 然 会 是 同一 回 事 吗 ? ©} 


下 次 你 在 看 比赛 、 收 听 比 赛 广播 ， 或 者 读 报 纸 体育 版 时 ， 留 意 一 
下 经 过 人 往 选 的 数据 类 型 。 这 些 类 型 的 数据 有 趣 吗 ? 当然 有 趣 。 它 们 有 
助 于 人 们 在 看 球场 上 运动 员 投 球 、 移 动 、 传 球 时 消磨 时 间 。 话 是 没 
错 ， 可 是 这 些 数据 究竟 有 用 吗 ? 并 不 尽 然 。 很 多 时 候 ， 它 们 比 柯 殉 : 吉 
布 森 在 1988 年 历史 性 的 一 天 ， 因 为 紧张 而 颤抖 的 双 腿 还 要 不 稳定 。 


好 了 ， 那 么 我 们 明日 了 ， 在 棒球 比赛 中 筛选 数据 不 会 对 任何 事 产 
生 多 少 影响 。 但 是 ， 如 采 那 些 经 过 旬 选 的 数据 ， 会 花 去 你 10 万 美元 ， 
结 采 又 会 如 何 ? 


1. And, in case you're wondering, the three teams that won game one and went on to win 
the World Series were the '87 Twins, '84 Tigers, and the ’80 Phillies. “1988 World Series- 


Game 1-Bottom of the 9th,” Dailymotion website, accessed April 25, 2015, 
http://www.dailymotion.com/video/ xd2fhk_1988- world- series- game-1- bottom- of_sport. 


2. It would not. While the team that lost game one went on to win the World Series 7 out of 


10 years, that only happened in 3 out of the past 5 years, 11 out of the past 20 years, and 14 out 
of 30 (using 1988 as our reference year for all). That said, the broadcasters could have chosen 


an even more dramatic statistic by saying it happened 5 out of the past 7 years. 


房价 上 涨 了 还 是 下 跌 了 ? 


通常 你 做 出 的 最 大 的 投资 下 是 买房 了 。 因 此 ， 你 才 会 在 做 决定 的 
时 候 ， 不 愿 依 赖 经 过 筛选 的 数据 。 


假设 现在 是 2012 年 ， 你 和 你 的 爱人 住 够 了 狭小 的 公寓 ， 认 为 你 们 
需要 买 一 座 房 子 。 周 日 在 公 姿 家 聚餐 时 ， 你 提起 了 买房 的 事 ， 你 的 公 
公 把 快 送 到 嘴 边 的 火 鸡 放 下 ， 然 后 说 这 可 能 是 你 做 得 最 糟糕 的 投资 。 
那 可 不 一 定 ， 你 礼貌 地 回应 道 (毕竟 谁 愿意 和 公公 争执 昵 ?%) ， 你 指 
出 ， 房 价 其 实 上 涨 了 大 约 180% 。 


那么 ， 谁 说 得 对 呢 ? 你 们 都 对 一 一 这 是 件 好 事 ， 因 为 没有 人 愿意 
睡 沙 发 。 

你 公公 认为 ， 房价 在 过 去 5 年 间 大 幅 下 跌 ， 图 7-3 束 古 他 用 于 证 明 
其 说 法 的 房价 走势 图 ， 看 起 来 似乎 无 可 争 汰 ， 不 是 吗 ? 


但 是 你 公公 只 看 了 过 去 5 年 的 数据 。 图 7-4 是 你 想到 的 房价 走势 
图 ， 用 长 远 的 目光 审视 了 过 去 十 年 内 的 数据 。 


房价 确实 略 有 下 降 。 不 过 从 长 远 来 看 ， 自 1982 年 以 来 ， 房价 实际 
上 上 涨 了 180 多 个 百分点 。 


(美元 /平方 米 ) 


(季度 ) 
2007Q3 2008Q1 2008Q3 2009Q1 2009Q3 2010Q1 2010Q3 2011Q1 2011Q3 201291 


图 7-3 美国 联邦 住房 金融 局 ， 美 国 全 部 交易 房价 指数 (USSTHPI) 来 自 FRED， 圣 路 易 斯 联邦 
储备 银行 ，2015 年 8 月 25 日 (https: //research.stlouisfed.org/fred2/series/USSTHPI) 


来 源 : 美国 联邦 住房 金融 局 research,stlouisfed.org (美元 /平方 
X) 
(美元 /平方 米 ) 


(年 ) 


1975 1980 1985 1990 | 1995 2000 2005 2010 


图 7-4 美国 联邦 住房 金融 局 ， 美 国 全 部 交易 房价 指数 (USSTHPI) 来 自 FRED， 圣 路 易 斯 联邦 
储备 银行 ，2015 年 8 月 25 日 (https: //research.stlouisfed.org/fred2/series/USSTHPI) 


来 源 : 美国 联邦 住房 金融 局 2014 research.stlouisfed.org 


号 餐 期 间 的 争论 可 能 信息 量 很 大 ， 也 许 你 觉得 你 应 当 完 胜 你 的 公 
公 。 然 而 面 对 更 高 风险 的 讨论 ， 会 怎样 呢 ? 一 一 比如 讨论 全 球 气候 变 
BET 


怀疑 科学 网 站 上 (The skeptical Science) 发 布 了 一 张 图 表 ， 说 明 
你 用 完全 相同 的 数据 来 证 明 地 球 表 面 正在 变 暖 一 一 或 者 证 明 没 有 变 暖 
一 得 出 何 种 结论 取决 于 你 如 何 观察 数据 。 电 例如 ， 你 若 看 的 是 大 约 
45 年 间 的 数据 ， 气 瘟 变 化 显然 有 上 升 的 趋势 。 


不 过 ， 如 果 你 采用 一 模 一 样 的 数据 ， 但 研究 的 时 间 段 较 短 (以 8 年 
或 10 年 为 期 ) ， 你 能 够 轻易 地 绘制 出 这 段 时 间 内 气温 略 有 走低 的 图 
xo 


地 表 气 温 变化 


(年 份 ) 
1970 1975 1980 1985 1990 1995 2000 2005 2010 2015 


地 表 气温 变化 


图 7-5 德 纳 : 纽 斯 特 里 为 怀疑 科学 网 所 绘 现实 主义 者 看 待 全 球 气候 变 暖 的 方式 


(SkepticalScience.com) 
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图 7-6 德 纳 - 纽 斯 特 里 为 怀疑 科学 所 绘 现实 主义 者 看 待 全 球 气 候 变 暧 的 方式 
(SkepticalScience.com) 

同样 的 数据 ， 结 论 却 截然 相反 ， 一 切 都 归 因 于 数据 经 过 了 人 沛 选 。 

1. “The Escalator,” Skeptical Science website, accessed September 2, 2015, 


http://www.skepticalscience.com/graphics. php?g=47. 


政客 们 如 何 筛选 数据 ? 


好 ， 前 文 我 们 谈论 了 和 最 值得 信赖 的 人 群 (儿科 医生 ) 有 关 的 内 
容 。 接 下 来 ， 我 们 来 谈 谈 最 不 可 信和 的 人 群 。 


政客 们 是 往 选 数据 的 专家 。 如 果 你 在 竞 计 公职， 并 在 步枪 协会 

(NRA) 筹 款 活动 上 发 表演 说 ， 你 会 强调 成 长 过 程 中 与 父亲 在 肯塔基 

州 芝 郊野 外 狩猎 的 经 历 。 但 你 寿 在 好 莱 坞 发 起 募捐 活动 ， 你 则 会 谈 起 
TER KAKA S o 
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在 政治 舞台 上 ， 因 为 竞选 对 手 精 心 挑选 出 来 的 负面 说 法 、 选 票 、 照 片 
等 落 败 的 人 不 计 其 数 。 


下 面 就 有 一 个 例子 。 在 1988 年 的 总 统 竞选 中 ， 由 于 杜 卡 基 斯 准许 
强奸 谋杀 犯 威 利 . 霍 顿 (Willie Horton) 周末 出 狱 休假 ， 副 总 统 乔治 
.H.W 布什 影射 马 了 萨 诸 塞 州 州长 迈克 和 尔 . 杜 卡 基 斯 (Michael Dukakis) 对 
待 罪犯 心 慈 手软 。 一 则 商业 广告 充分 利用 了 这 一 事实 ， 称 “迈克 尔 . 杜 
卡 基 斯 不 仅 反 对 死刑 ， 还 准许 一 级 谋杀 犯 离开 监狱 享受 周末 ”。( 洁 ) 电 
视 广告 成 为 这 场 竞选 的 转折 点 ， 帮 助 副 总 统 布什 击败 了 杜 卡 基 斯 。 


正如 一 位 记者 指出 的 ， 如 采 电 视 机 前 的 观众 了 解 到 “出 狱 休假 的 
1.1 万 名 囚犯 中 ，99.5% 的 人 都 按时 返回 监狱 "的 事实 ，( 同 也 许 竞选 结果 
会 大 有 不 同 。 显 然 威 利 ' 霍 顿 是 未 返回 监狱 的 0.5% 人 中 的 一 员 。 


数据 色 选 还 有 一 种 方式 一 一 上 断章取义。 这 里 承 有 一 个 例 季 : 2003 
年 11 月 28 日 ， 康 多 和 莉 扎 : 赖 斯 一 一 时 任 乔 治 -W. 布 什 总 统 的 国家 安全 顾 
问 一 一 现 身 哥 伦比 亚 广播 公司 的 《 晨 间 秀 》。 


如 果 你 去 看 电影 《华氏 9.11》 (Fabrenbeit 9/11) ， 你 会 听 到 一 段 
台词 引 自 赖 斯 女士 。 她 说 :“ 哦 ， 伊 拉克 与 ‘9.11" 事 件 确实 有 一 定 联 
系 。” 接 着 摄像 机 画面 就 切换 了 “。( 肝 ) 


完整 的 论述 是 这 样 的 : “ 哦 ， 伊 拉克 与 "9.11 事 件 确实 有 一 定 联 
系 。 不 是 说 萨 达 姆 : 修 赛 因 及 其 政权 莫名 其 妙 地 就 卷 进 ‘9.11: 事 件 ， 而 
是 假如 你 仔细 想 想 "9.11' 事 件 发 生 的 来 龙 去 脉 ， 正 是 崛起 的 仇恨 意识 形 
态 驱使 人 们 加 机 撞击 纽约 五 角 大 楼 。* 汪 这 与 第 一 句 表述 的 是 完全 不 
同 的 意思 。 


很 明显 ， 赖 斯 在 电影 中 说 的 话 被 从 原来 的 语 境 中 抽 离 了 出 来 ， 经 

了 篇 选 。《 华 氏 9.11》 是 由 电影 导演 兼 活动 家 迈克 尔 .摩尔 制作 。 他 
oe 004 ， 影 响 即将 到 来 的 总 统 
选举 。 人 党 我 们 是 否 应 该 料想 到 一 个 有 目的 、 有 计划 的 人 会 对 数据 进行 
筛选 ? 当 我 们 走 进 影院 ， 拿 起 一 本 书 或 者 仅仅 和 某 人 寒 瞎 几 句 的 时 
候 ， 又 如 何 获悉 这 个 人 的 动机 是 什么 呢 ? 


在 很 多 时 候 ， 我 们 做 不 至 不 停 问 问题 束 是 为 了 解 真相 ， 发 掘 
尺 可 能 多 的 隐藏 数 据 。 


1, “Willie Horton 1988 Attack Ad,” YouTube, accessed April 25, 2015, 
http://www.youtube.com/watch?v-Io9KMSSEZOY. 


2. Kenneth J. Cooper, *Bush Is Using Case of a Murderer to Assail Dukakis As Soft on 
Crime," Philly.com website, June 26, 1988,  http://articles.philly.com/1988-06- 
26/news/26265230_1_michael-s- dukakis- furlough- program- massachusetts- gov. 

3. Fahrenheit 9/11, directed by Michael Moore (Culver City, CA; Lions Gate Films,2004.) 


4. Brent Baker, “CBS Scolds Bush for Hiding How ‘Kerry Talks Tough’ on Terrorism,” 
Media Reseach Center website, October 20, 2004, http://www.mrc.org/biasalerts/ cbs- scolds- 
bush- hiding- how- kerry- talks- tough- terrorism- 10202004. 


5. Martin Kasindorf and Judy Keen, “‘Fahrenheit 9/11’: Will It Change Any Voter's Mind?" 
USA Today website, June 24, 2004, 


http://usatoday30.usatoday.com/news/politicselections/nation/president/2004-06-24- 


fahrenheit- cover_x.htm. 


相信 我 们 一 一 我 们 在 打 广 告 


那 产 品 和 品牌 为 何 会 筛选 数据 呢 ? 因为 这 么 做 能 使 它们 脱 颖 和 而 

出 ， 脱 颖 而 出 才 是 关键 。 比 如 ， 在 我 们 浏览 高 露 洛 的 网 站 时 ， 我 们 看 

到 31 种 不 同类 型 的 牙 襄 。 (加 因为 你 只 有 32 颗 牙齿 ， 牙膏 看 起 来 似乎 太 

多 了 。 我 们 到 本 地 杂货 店 去 看 一 下 摊 放 牙 宫 的 货架 ， 束 会 看 到 高 露 洛 

KE RAL TRAE 更 不 用 说 佳 洁 士 、 爱 莫 (Aim) ` MRE 

(Arm & Hammer) 、 缅 因 州 汤姆 家 (Tom's of Maine， 高 露 洁 棕 槛 旗 
下 产品 ) 及 其 他 品牌 了 。 


正如 我 们 在 嘉 至 一 例 中 所 看 到 的 ， 广 告 中 非常 容易 发 现 经 过 筛选 
的 数据 。 为 什么 ? 因为 筛选 数据 这 一 做 法 在 广告 中 大 有 用 武之 地 ， 广 
告 商 正 是 抠 借 这 一 点 来 卖 产 品 的 。 


在 你 观看 电视 商业 广告 的 时 候 ， 通 第 来 说 ， 你 所 看 到 、 听 到 的 一 
切 都 十 经 过 精 挑 细 移 的 。 无 一 例外 。 演 员 是 根据 他 们 的 年 龄 、 性 别 、 
族 裔 、 体 重 、 发 型 、 人 省 斑 数目 等 条 件 精 心 猎 选 出 来 的 。 尤 其 是 台词 ， 
每 个 字 至 少 要 经 过 12 人 审查 。 仔 细 观 察 ， 然 后 你 可 能 会 发 现 一 片 布料 
或 者 一 根 柱子 也 是 挑选 出 来 的 ， 因 为 它们 和 logo 同 色 。 一 则 商业 广告 
中 的 事物 的 存在 都 不 是 偶然 一 一 这 吏 是 为 什么 拍摄 一 则 30 秒 的 广告 可 
以 很 轻易 地 用 去 12 个 小 时 ， 自 不 必 说 剪辑 ， 那 会 花 上 数 天 (甚至 数 
周 ) 的 时 间 。 


但 在 你 开口 指 贡 广告 商 仅 仅 为 了 卖 给 你 一 双 新 鞋 或 者 一 种 新 型 早 
餐 麦 片 或 者 人 寿 保 险 束 用 挥 这么 多 时 间 之 前 ， 照 一 照 镜子 吧 。 


说 真 的 ， 照 一 照 镜 子 。 每 次 你 为 约会 或 者 面试 罕 衣 打扮 时 ， 你 就 
古 在 对 衣柜 里 的 衣服 进行 第 和 渤 ， 从 而 选 出 最 合适 的 一 件 。 你 的 约会 对 


象 来 见 你 的 时 候 ， 你 是 不 是 要 对 他 说 : “ 哇 哦 ， 你 故意 选 这 身 打扮 ， 
得 真 好 ! ”你 应 该 不 会 这 么 说 吧 ADR NE 
你 不 会 这 么 说 。 不 过 这 仅仅 是 我 们 在 日 常生 活 中 不 停 对 数据 进行 筛选 
的 另 一 个 例子 而 已 。 外 ) 


1. “Toothpastes,” Colgate website, accessed July 12, 2015, 
http://www.colgate.com/en/us/oc/products/toothpaste. 


2. Of course, cherry picking should not be confused with curating, which we typically think 
of as working on behalf of the audience, filtering the data to select the most 
appealing/interesting data (as opposed to cherry pickers, who often deliberately select only 
some of the data in order to produce a specific result) 


你 是 < 搞 樱 桃 的 人 ”一 一 没 错 ， 就 是 你 


现在 ， 你 应 该 可 以 多 少 想 到 儿 种 在 日 前 生活 中 角 选 数据 的 方式 。 
比如 : 


.填写 线 上 交友 资料 时 。 

.为 同事 写 推荐 信 。 

:告诉 爱人 周末 去 了 拉 斯 韦 加 斯 。 
.因为 下 两， 决定 不 修剪 草坪 。 


在 以 上 所 有 例子 中 ， 你 也 许 不 会 将 目 己 掌握 的 数据 全 用 上 ， 而 只 
采用 目 己 想 用 的 数据 。 


很 多 情况 下 ， 想 要 洱 吉 所 有 数据 几乎 是 不 可 能 的 。 想 一 下 你 的 简 
历 或 领 身 招聘 网 站 的 资料 就 能 得 出 这 一 结论 。 根 据 定 义 来 讲 ， 将 你 所 
做 事情 进行 概括， 很 多 时 候 目 的 是 帮 你 找到 一 份 更 好 的 工作 。 因 此 你 
当然 会 将 职业 生涯 中 的 亮点 列举 上 去 ， 而 且 只 列举 那些 能 够 为 你 增光 
添彩 的 资料 。 这 就 是 沛 选 数据 。 你 目 己 知道 ， 你 的 老板 知道 ， 人 力 资 
源 部 经 理 肯 定 也 知道 。 这 束 是 设置 面试 的 原因 ， 即 发 掘 未 被 你 列 入 简 
历 的 隐藏 数据 。 


选 出 最 好 的 ， 留 下 其 他 的 


如 你 所 见 ， 你 筛选 数据 的 方式 有 很 多 。 在 涉及 下 列 情况 时 ， 你 可 
以 “ 选 出 最 好 的 ， 留 下 其 他 的 ”: 
“日 期 或 者 倍数 (5 年 间 的 房价 与 0 年间 的 房价 对 比 ) 。 


* 群 组 或 子 群 组 《5 名 推荐 婴儿 食品 的 儿科 医生 中 有 4 名 推荐 嘉 


) 


Hi 


.以 往 结论 〈“ 纵 观 世 界 职业 棒球 大 赛 的 历史 ， 曾 经 以 至 少 6 分 的 成 
绩 赢 得 首 场 比赛 的 15 个 球 队 中 ， 村 冠 的 仅 有 8 个 ” 归 ) 。 

.含糊 或 者 模棱两可 的 标签 ( 当 你 说 名 人 总 是 三 人 结伴 离世 时 ， 那 
么 你 会 将 谁 归 入 “名 人 ”之 列 呢 ?9 ) 。 

.不 能 公之于众 但 又 非 随机 选取 的 因素 (谷歌 、 必 应 等 搜索 结 
果 ) 。 


“人 (就 投票 偏好 调查 某 个 州 亲 “ 右 ?或 者 亲 “ 左 ”的 选民 得 出 的 结果 
要 比 随 意 调查 某 个 州 1000 名 选民 得 出 的 结果 差异 更 明显 ) 。 


但 是 ， 为 了 大 清楚 数据 旦 否 已 被 筛选 过 ， 你 得 知道 存在 多 少 原始 
数据 一 一 话题 束 转 到 了 第 二 章 所 谈 及 的 抽样 问题 了 。 如 有 果 你 在 研究 气 
候 变 化 ， 你 有 每 个 大 洲 过 去 1000 年 间 每 一 秒 钟 的 气温 材料 吗 ? 当然 没 
有 。 大 多 数 情 况 下 ， 你 掌握 不 了 所 有 数据 的 可 能 性 比较 大 。 或 许 没有 
人 能 做 得 到 一 一 或 许 一 些 人 做 到 了 ， 但 是 你 呢 ， 只 能 看 到 其 中 的 一 些 
数据 。 


EREA, 2A RS A — 那些 无 法 让 我 们 对 人 研 
究 对 象 产 生 更 深 理解 的 特殊 数据 。 你 可 能 认识 一 些 声称 能 够 通过 对 股 
票 、 基 金 、 行 业 进行 第 选 ， 从 而 “打败 市 场 *? 的 人 。 这 些 人 可 能 仅仅 是 
m CM 
SÉ o 


MERGE AS EE — — DOBLE AE ABS, Maps 816 73 Pre 
为 的 数据 策略 。 你 还 需 注 意 : 


.根据 传言 提出 观点 一 一 如 果 你 只 依赖 传言 (也 就 是 说 ， 选 取 关于 
某 事 的 故事 ) ， 那 么 你 就 掌握 不 了 全 部 数据 。 例 如 ， 如 果 你 听 说 邻居 
因为 在 某 家 餐馆 吃饭 导致 身体 不 适 ， 并 不 能 断定 所 有 在 那 家 餐馆 就 餐 
的 人 都 会 身体 不 适 。 


«13:35 71 fi [8] — 这 种 情况 发 生 在 你 对 某 些 数据 尤为 关心 的 时 候 。 
VERT) UT) Sj TICE A XB EF, Gr aC NR FH EB PEN TA 
CREB, REESE ARS ^ MERN mW PY B6 LE PRTC UTE S BI PT n] 
用 数据 。 


实证 性 偏见 一 一 正如 我 们 在 第 四 章 中 提 到 的 ， 这 就 是 找寻 支撑 你 
看 法 的 数据 趋势 。 如 果 你 读 到 一 条 有 关 某 家 餐馆 的 差 评 但 是 你 的 
老板 不 管 怎样 都 要 搜 着 你 去 那里 吃饭 ， 自 然 ， 你 可 能 会 倾向 于 寻找 更 
多 不 喜欢 这 家 餐馆 的 原因 。 估 


1. Andrew Simon, *Game 1 Rout Not Necessarily Precursor to Title" MLB.com website, 
October 23, 2013, http://m.mlb.com/news/article/63287950. 

2: Burton G. Malkiel, “Returns from Investing in Equity Mutual Funds, 1971—1991,” 
Journal of Finance 50 (1995), 549- 572. 


3. Not to mention the distinction between causation and correlation, which we talked about 


in chapter 4. 


4. Esteemed economist Daniel Kahneman shared the Nobel Prize in 2002 for his work 
related to psychological factors that affect our decisions. Much of Kahneman's work was done 
in collaboration with Amos Tversky, who passed away in 1996 and was therefore ineligible for 
the Nobel Prize. 
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使 得 普通 消费 者 难以 看 出 品牌 差异 的 。 


思考 一 下 三 种 表述 ， 分 别 来 目 三 家 不 同 的 医疗 机 构 : 


” “已 经 第 22 次 位 列 全国 第 一 了 。” 


“在 特色 医院 ' 评 选中 ， 位 列 全 国 第 一 。* 
“医院 获得 美国 顶尖 医生 "称号 的 医生 数量 全 国 第 一 。” 
通过 阅读 以 上 表述 ， 三 家 机 构 都 想 让 你 认为 它们 是 最 好 的 。 但 候 
设 第 一 名 不 允许 存在 平局 ， 不 管 是 通过 什么 调查 或 者 研究 ， 那 么 只 有 
一 个 可 以 位 居 榜首 。 


那么 其 他 人 做 了 什么 呢 ? 他 们 筛选 数据 ， 从 而 尽 可 能 地 强化 自己 
AML © © 


1. In case you’re wondering, the first example is the Johns Hopkins Hospital (“The Johns 
Hopkins Hospital Ranked Among the Top Hospitals in the Nation in 2015,” Johns Hopkins 
Medicine website, accessed September 1, 2015, http://www.hopkinsmedicine.org/usnews/); 
the second is Mayo Clinic (Mayo Clinic website homepage, accessed September 1, 2015, 
http://www.mayoclinic.org/);and the third is New York- Presbyterian (“Awards and 
Recognition" New York- Presbyterian website, accessed September 1, 2015, 
http://nyp.org/about/americas- top- doctors.html). 
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1. 不 论 何 时 ， 在 观察 或 者 使 用 数据 的 时 候 ， 阅 读 小 字 。 在 
嘉 宝 这 个 例子 当中 ， 很 多 信息 可 以 从 注意 事项 和 人 免责 声明 中 搜集 而 
来 。 细 读 注意 事项 、 上 下 文 及 脚注 。 大 引用 了 研究 报告 一 一 特别 是 广 
SR SIA TORRE, WEES RA BHR er, ABE AER 
邦 贸易 委员 会 及 其 他 部 门 许可 的 。 要 做 一 名 合格 的 数据 接收 者 ， 请 全 
起 放大 镜 ， 阅 读 附注 细则 o 


2. 思 考 一 下 ， 数 据 是 否 是 以 随意 (或 者 非 随意 ) 的 方式 选 
取出 来 的 一 一 这 种 选取 数据 的 方式 ， 是 否 可 能 会 让 结果 朝 着 某 一 个 方 
癌 偏离 。 比 如 ,频繁 、 明 显 、 任 意 切 换 镜头 的 现象 在 体育 广播 网 时 有 
发 生 。 无 论 何 时 听 到 播音 员 的 声音 , “过 去 19 场 比赛 中 .…….” 或 者 “2002 
年 以 来 "” 他们 就 是 在 篇 选 数 据 了 。 使 用 特定 时 间 点 的 数据 难道 事 出 有 
Al? 也 许 你 仅仅 是 在 谈论 季 后 赛 ， 或 者 分 析 总 统 大 选 ， 或 者 看 看 重大 
事情 〈 像 政策 变化 ) 发 生 之 前 〈 后 ) 的 前 兆 。 但 是 你 需要 思考 一 下 你 
所 看 到 的 数据 是 否 经 过 了 随意 筛选 ， 或 者 其 筛 选 的 方式 (依照 时 间 ， 


Ap S 日 Fd VIS = 
等 等 ) 是 否 男 有 深意 。 


3. 问 问 是 否 缺 失 了 什么 数据 。 在 嘉 宝 例子 中 ， 我 们 看 到 有 一 大 
批 完 全 不 推荐 竖 儿 食品 的 医生 ， 还 有 一 组 儿科 医生 ， 不 推荐 任何 特别 
品牌 。 这 些小 组 都 没有 在 嘉 到 提出 的 “4/5" 论 断 中 体现 。 缺 失 的 数据 和 
择 现 的 数据 同等 重要 。 试 想 有 一 个 杯子 里 盛 了 半 杯 水 。 乐 观 者 会 告诉 
你 一 半 是 满 的 ， 而 悲观 者 则 会 告诉 你 一 半 是 空 的 。 两 者 都 对 一 一 而 且 


都 对 数据 做 了 沛 选 。 如 果 你 想 要 做 出 更 好 的 决定 ， 束 要 掌握 所 有 数 
据 。 


4. 不 要 赋予 任何 数据 超出 其 自身 的 意义 。 想 开 一 些 ， 不 要 被 
单个 数字 左右 。 它 可 能 看 似 很 有 说 服 力 ， 但 是 未 必 能 准确 地 呈现 出 事 
情 的 全 舰 ， 因 为 它 是 根据 经 过 筛选 的 数据 所 得 出 的 。 如 有 果 一 名 波士顿 
红 袜 队 的 球迷 告诉 自己 的 儿子 ， 击 球 手 贝 比 : 鲁 斯 局 创 下 了 出 局 1330 次 
的 纪录 ， 孩 子 可 能 会 认为 贝 比 是 位 兰 劲 的 运动 员 。 


5. 对 数据 的 来 源 多 打 个 问号 常常 大 有 神 益 。 比 如 ， 我 们 喜欢 
喝 咖 啡 。 本 书 有 一 半 内 容 是 在 咖啡 店 完成 的 (我 们 还 需 满 满 一 张 至 
谢 ， 只 为 所 有 这 些 友爱 和 善 的 咖啡 师 ) 。 但 如 果 你 读 到 一 篇 来 自 美国 
国家 咖啡 协会 (NCA) 的 报告 ， 报 告 中 引用 了 团队 总 经 理 及 首席 执行 
官 的 话 ， 称 人 们 喝 咖 啡 喝 得 越 来 越 多 了 ， 听 到 这 样 的 话 ， 你 不 该 觉得 
惊 证。 毕竟 国 家 咖啡 协会 的 核心 目的 是 “在 咖啡 全 球 化 的 大 环境 下 ， 确 
保 美国 咖啡 业 保 持 领先 地 位 ”。( 洁 随便 读 一 本 贸易 组 织 编 写 的 读物 ， 
其 中 必然 充斥 着 称赞 其 成 员 企业 的 文章 。 (尽管 也 有 例外 ER 
顿 邮 报 》 曾 经 报道 过 ,，“ 有 一 项 得 到 奶 酷 行 业 赞 助 的 研究 ， 得 出 了 奶 栈 
有 害 健 康 的 结论 ”。( 尘 ) 同 往常 一 样 ， 在 你 接收 数据 的 时 候 ， 请 思考 
一 下 数据 的 来 源 。 


因此 ， 下 次 你 的 老板 说 因为 “< 上 月 销售 额 下 滑 ” 不 能 给 你 涨 工 资 
时 ， 问 问 她 过 去 一 个 季度 、 一 年 或 者 10 年 的 销售 额 。 


当 你 12 罗 的 孩子 因为 "她 所 有 的 朋友 都 在 看 R 级 电影 "而 想 看 R 级 电 
影 时 ， 问 问 她 数据 组 中 是 否 泗 盖 了 她 的 每 一 个 朋友 一 一 还 是 仅仅 局 限 
于 爸 妈 对 这 类 事情 比较 无 所 谓 的 朋友 呢 。 


还 有 如 果 你 听 到 有 人 说 “4/5 的 人 .……”， 那 么 问 问题 的 时 候 到 了 。 


1. 贝 比 : 鲁 斯 ， 美 国 职业 棒球 运动 员 ， 有 “棒球 之 神 ” 美 称 。 
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B/E 为 什么 福 岛 事故 十 可 以 预防 的 ， 预测 未 来 
的 技术 


2011 年 3 月 11 日 , 日 本 发 生 了 该 国有 记录 以 来 最 严重 的 地 震 。 据 美 
国 国家 航空 航天 局 的 科学 家 称 ， 此 次 东 日 本 大 地 震 震 级 达 9.0 级 ， 震 中 
位 于 太平 洋 海域 ， 距 离 日 本 沿海 不 远 ， 其 威力 之 大 ， 使 得 地 球 的 形状 
e eu cede i 
X) 。 


地 震 发 生 不 到 半 个 小 时 ， 引 起 的 巨大 海啸 就 席卷 了 日 本 福 岛 第 一 
核电 站 。 原 本 核反应 堆 一 感知 到 地 震 就 会 自动 关闭 ， 但 是 海啸 摧毁 了 
应 急 发 电机 和 冷却 泵 ， 还 损坏 了 多 级 反应 器 。 结 果 ，“ 数 量 巨 大 ”的 放 
射 性 物质 随 之 泄漏 ， 守 数 百 万 吨 被 污染 的 水 也 涌 入 海水 之 中 。 同 


在 国际 核 事 件 分 级 表 中 ， 该 事故 被 评 为 7 级 事故 一 这 已 经 是 最 高 
级 别 了 ， 只 有 重大 事故 才 可 以 被 评定 为 这 个 级 别 。 当 时 ， 只 有 切 尔 诺 
贝 利 事故 能 与 之 相提并论 。 当 然 ， 不 容 忽 视 的 还 有 地 震 和 海啸 在 日 本 
全 国 造成 的 伤亡 ， 据 报道 15391 人 因 之 形 生 ，8000 多 人 失踪 。 人 四) 


地 震 一 往往 会 引发 巨大 的 海 哺 一 在 日 本 是 人 尽 丝 知 的 自然 灾 
害 。 如 今 ,日 本 的 一 个 国家 机 构 准 备 了 若干 幅 日 本 全 国 地 震 灾 害 图 ， 
并 用 颜色 代码 做 了 标记 ， 突 出 全 国 范围 内 地 震 事故 发 生 的 概率 。( 沁 其 
至 在 当初 策划 建设 福 岛 核 电站 时 ， 工 程 师 也 知道 面临 地 震 及 海啸 的 风 
险 ， 所 以 设计 出 来 的 核电 站 可 以 经 受 3.1 米 高 海浪 的 冲击 。 这 一 高 度 是 
基于 当时 的 一 般 惯 例 ， 即 根据 历史 上 的 海啸 记录 判断 未 来 海啸 的 浪 
高 。3.1 米 的 浪 高 是 根据 1960 年 侵袭 智利 沿海 的 大 地 震 而 来 的 。 人 时 ) 
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核电 站 的 确 是 遭受 了 自然 灾害 的 袭击 ， 而 之 后 的 一 系列 事故 ， 是 
由 于 无 法 准确 地 预测 灾害 的 强度 ， 导 致 无 法 应 对 才 引 发 的 。 正 如 独立 
委员 会 官方 报告 上 写 的 :“ 福 岛 事故 是 一 场 本 就 能 够 且 应 当 预 见 ， 从 而 
避免 发 生 的 人 为 灾难 。> 汉 ) 


当然 还 有 一 些 其 他 因素 。 据 官方 报道 称 ， 东 京 电力 公司 、 监 管 机 
构 及 政府 被 指 “ 相 互 勾结 ”。( 生 有 些 计算 机 模型 没有 准确 计算 海啸 冲 上 
建筑 周围 土地 情形 ， 在 那 种 情况 下 ， 海 浪 的 高 度 会 增加 。 但 根本 来 
讲 ， 设 计 期 间 所 做 的 预测 在 若干 年 后 带 来 了 严重 的 后 果 。 


最 开始 对 福 岛 核 电站 能 够 承受 3.1 米 海浪 袭击 的 评估 来 源 于 核电 站 
设计 前 几 年 间 的 数据 记录 。 不 过 据 国 际 原子 能 机 构 称 ， 在 地 壳 运 动 高 
度 活路 的 地 区 ， 可 能 需要 研究 “ 数 万 年 间 * 的 数据 。( 电 在 一 篇 卡 内 基 国 
际 和 平 基金 会 的 报告 _ 《为 什么 说 福 岛 事故 是 可 以 预防 的 》 (Why 
Fukushima Was Preventable) 一 文中 ， 研 究 者 们 引用 了 一 篇 报告 (发 表 
于 福 岛 事 故 几 年 前 ) 。 引 用 的 报告 称 ， 根 据 沉积 物 推断 ， 该 地 区 “每 隔 
千年 就 会 被 一 场 大 规模 海啸 席卷 ”。( 尘 ) 卡 内 基 报 告 的 另 一 项 研究 UR 
表 于 2011 年 海啸 后 不 久 ) 列 入 了 发 生 在 日 本 及 附近 的 6 次 海啸 ，500 年 
来 最 大 的 海啸 浪 高 达 20 多 米 。( 汪 《纽约 时 报 》 甚 至 报道 ， 存 在 “所 谓 
的 海啸 石 ， 有 的 已 经 存在 了 600 多 年 ”， 还 刻 着 诸如 “ 勿 在 此 地 建设 家 
Ej" sie C) 。 
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测 很 难 做 到 精准 ， 但 也 不 是 说 绝 无 可 能 。 
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明天 太阳 会 照常 升 起 吗 ? 


预测 建立 在 一 个 看 似 简 单 的 问题 之 上 : 立足 过 去 ， 我 们 能 预知 未 
来 吗 ? 


只 是 这 个 问题 一 总 都 不 简单 。 实 际 上 ， 这 有 是 本 书 最 复杂 的 问题 之 
一 ， 正 因为 这 样 ， 我 们 才 把 这 个 问题 留 到 最 后 讨论 。 


我 们 束 以 前 半 个 问题 展开 吧 : “立足 过 去 .…...” 


如 果 你 拥有 所 有 以 往 数据 ， 也 天 是 我 们 所 谓 的 数据 总 体 ， 那 么 你 
束 有 了 一 个 恨 好 的 开端 。 例 如 ， 不 管 以 什么 方式 ， 寿 我 们 能 够 观测 到 
曾经 发 生 在 日 本 的 每 一 次 地 震 及 海中 ， 我 们 吏 掌 握 了 所 有 这 些 事件 的 
数据 。 即 使 那 时 我 们 常常 禁不住 思考 未 来 还 会 发 生 什么 别 的 事情 。 


但 如 采 我 们 没有 搜集 到 全 部 数据 ， 束 不 得 不 依赖 某 一 个 样本 。 而 
在 抽样 的 过 程 中 ， 我 们 也 不 是 总 能 知道 样本 有 是否 代表 了 数据 总 体 的 真 
实情 况 。 所 以 你 得 出 的 结论 也 不 确定 ， 也 束 是 抽样 误 关 一 一 我 们 在 第 
五 章 讨论 过 。 这 走 福 岛 大 灾难 背后 的 因素 之 一 ， 鉴 于 大 地 震 及 海啸 发 
生 的 频率 相对 较 低 ， 其 样本 容量 ( 几 十 年 ， 太 小 ， 不 具备 代表 性 。 


样本 的 不 确定 性 越 大 ， 预 测 的 不 确定 性 就 越 大 。 掌 握 的 信息 越 详 
尽 ， 预 测 结果 越 准确 ， 在 统计 学 中 ， 我 们 将 预测 的 基础 称 为 < 模型”。 
模型 展示 了 所 有 掌握 的 信息 一 一 你 用 来 预测 未 来 的 因素 ， 你 所 依赖 的 
基础 样本 数据 ， 以 及 你 通过 数学 方法 确定 的 各 因素 之 间 的 关系 。 换 名 
话说 ， 该 模型 体现 了 你 所 认为 的 各 因素 之 间 的 关系 。 毕 竟 ， 如 果 你 解 
释 不 了 已 经 看 到 的 东西 ， 就 很 难 (几乎 不 可 能 ) 解释 在 未 来 将 要 看 到 
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数据 、 遗 漏 变量 、 离 群 值 、 显 著 性 差异 等 。 以 上 任何 因素 在 你 的 以 往 
数据 中 出 现 都 会 导致 影响 预测 的 问题 ， 因 为 未 来 通常 立足 于 以 往 的 数 
据 。 


现在 ， 你 一 旦 开始 着 眼 未 来 ， 而 不 是 回首 过 去 ， 问 题 束 会 变 得 愈 
加 复杂 ， 因 为 你 将 存在 于 过 去 和 未 来 的 不 确定 性 县 加 在 一 起 了 。 过 去 
发 生 过 的 事情 未 必 会 在 未 来 发 生 。 


比如 ， 你 想 预测 来 年 小 麦 的 价格 。 你 搜集 了 人 类 有 史 以 来 所 有 关 
于 小 麦 价格 的 数据 ， 还 有 决定 小 麦 价 格 的 诸多 因素 (气温 、 肥 料 价 
格 、 运 输 费 用 等 ) 。 首 先 ， 你 需要 建立 一 个 统计 模型 以 确定 过 去 影响 
小 麦 价格 的 因素 是 什么 ， 以 及 不 同 因素 之 间 存 在 怎样 的 数学 关系 。 然 
后 ， 和 凭借 此 模型 预测 来 年 的 小 麦 价格 。( 乌 


问题 是 ， 不 管 样本 数量 有 多 大 ， 你 的 统计 模型 有 多 精确 ， 依 然 存 
在 导致 预测 出 现 偏差 的 未 知 因素 : 

.要 是 铁路 运输 费用 翻 了 一 番 ， 会 怎样 ? 

.要 是 国会 通过 了 新 的 法 案 ， 限 制 小 麦 价 格 ， 会 怎样 ? 

.要 是 小 麦 出 现 基因 突变 ， 成 长 速度 比 原来 翻 了 一 番 ， 导 致 全 球 小 
麦 供应 量 翻 倍 ， 会 怎样 ? 

我 们 不 知道 以 上 情况 是 否 会 发 生 ， 但 是 我 们 也 不 知道 它们 会 不 会 
不 发 生 。 但 是 这 类 的 干扰 事项 (有 时 被 称 为 结构 性 变化 会 扰乱 我 们 
立足 过 去 精准 预测 未 来 的 能 力 。 时 

预测 并 非 易 事 ， 因 为 我 们 对 世界 运行 方式 的 认 知 上 还 存在 盲区 。 


存在 不 可 预知 的 事情 ， 未 知 的 进程 、 随 机 发 生 的 事情 。 人 说 变 正 变 ， 
事物 也 不 会 一 成 不 变 。 你 在 人 研究 的 数据 可 能 会 改变 一 一 你 对 基础 过 程 


的 理解 同样 也 会 变化 。 例 如 ， 福 岛 灾难 之 后 ， 根 据 日 本 民事 服务 协会 
提出 的 新 研究 方法 ， 海 啸 的 预期 浪 高 由 3.1 米 提高 到 了 5.7 米 。( 演 ) 当 你 
想 要 预测 未 来 时 ， 这 些 变化 就 是 你 需要 铭记 在 脑海 中 的 注意 事项 。 


1. 


4. 


Even the best model will not fully predict the past because there is, at least in theory, truly 
random error. In fact, although it may seem counterintuitive, a model that perfectly explains 
the past is often a sign of an “overfit” model and will perform poorly in the future. 


With complex forecasts— such as determining where a hurricane will make landfall— 
forecasters may look at a set of models. Even small changes in the model may have an impact 
on à forecast. For example, according to an article on IEEE Spectrum (Tekla Perry, “Predicting 
Hurricane Sandy" accessed August 2, 2015,  http://spectrum.ieee.org/ tech- 
talk/computing/software/ predicting- hurricane- sandy) simply using two different computers 
to run the same software may result in two different outcomes, since each computer may run 
calculations in a different order. But if the forecasters make minor changes and still find 
consistency in the various forecasts, they can rest (somewhat) assured that the models are 


accurate. 


For example, building contracts frequently include what are called "force majeure" 


clauses that specify types of natural disasters that can result in delays in construction. 


IAEA Mission Report. 


预知 和 预测 的 区 分 


地 震 是 无 法 预知 的 。 至 少 美国 地 质 调查 局 (USGS) 认为 不 可 能 做 
到 ， 而 且 他 们 还 为 “预知 ”和 “预测 ”做 了 明确 的 区 分 。 他 们 指出 ,，“ 不 存 
在 可 以 预知 某 次 地 震 发 生 的 科学 易 行 的 方式 ”， 还 补充 说 “根据 人 们 的 
概念 ， 所 请 预知 ， 需 要 能 够 预言 出 未 来 地 震 的 震级 、 发 生 的 时 间 及 地 
点 ， 这 在 现在 看 来 ， 是 不 可 能 做 到 的 。* 沁 目前 我 们 缺乏 准确 预知 地 
震 的 数据 和 技术 。 


这 束 古 说 ， 美 国 地 质 调查 局 说 ， 这 些 地 方 “从 长 远 来 看 最 有 可 能 发 
生地 震 *。 只 有 在 评 信 在 茶 一 段 时 期 内 地 震 发 生 的 可 能 性 时 ， 他 们 才 将 
其 称 为 预测 。 


那么 我 们 就 会 面临 这 样 一 个 问题 ， 预 知 与 预测 到 底 存 不 存在 区 
别 。 内 特 : 希 尔 在 《信和 号 与 噪声 》 (The Signal and the Noise) 一 书 中 指 
出 ， 有 的 人 (多 数 是 研究 地 震 的 知名 地 震 学 家 ) 会 区 别 使 用 这 两 个 
词 ， 而 有 的 人 则 会 将 两 个 词 互 换 使 用 。 有 的 人 认为 “预知 ”一 词 具 有 双 
重 含义 一 一 发 生 或 者 不 发 生 而 预测 的 更 多 是 概率 事件 ， 事 情 发 生 
的 概率 有 百 分 之 多 少 。 (说 得 复杂 点 ， 当 谈论 到 过 去 、 现 在 或 者 未 来 
的 数据 时 ， 可 能 需要 进行 估算 。) 


我 们 发 现在 某 些 情 况 下 ， 这 类 区 分 确实 存在 。 然 而 ， 我 们 从 撰写 
本 书 的 目的 出 发 ,一般 情况 下 将 “预知 ”与 “预测 ”看 作 同 义 词 ， 如 有 果 不 
是 BATTEN ° 


为 什么 呢 ? 


首先 ， 因 为 这 本 书 的 读者 群 是 普通 的 数据 接收 者 ， 而 不 是 地 震 学 
家 或 者 高 级 统计 学 家 © 


其 次 ， 我 们 不 想 让 字 词 语义 上 的 区 别 哈 宾 夺 主 ， 兽 过 本 章 主旨 
一 一 前 释 运 用 数据 预测 未 来 时 应 该 或 者 不 应 该 采用 的 方式 。 


1. “Earthquake Facts & Earthquake Fantasy,” USGS website, accessed July 26,2015, 
http://earthquake.usgs.gov/learn/topics/megaqk_facts_fantasy.php. 


出 国旅 游 之 前 ， 请 告知 金融 机 构 


你 遇 到 过 信用 卡 公 司 误 认 为 你 的 卡 被 瓷 刷 而 给 你 打 电 话 的 情况 
吗 ? 这 时 有 发 生 。 你 在 欧洲 度假 或 者 在 品牌 折扣 店 血 拼 ， 突 然 授 到 了 
来 自信 用 卡 公司 的 电话 ， 原 因 是 该 公司 担心 你 的 卡 出 现 了 欺诈 行为 。 


为 什么 呢 ? 可 能 是 因为 公司 参照 了 以 往 的 数据 ， 并 以 此 创建 了 你 
未 来 购买 行为 的 模型 。 那 么 当 数 据 和 模型 不 相符 的 时 候 ， 你 吏 会 接 到 
电话 。 [Visa CER) 在 其 网 站 上 建议 ， 如 果 你 要 出 游 ， 请 告知 金融 
机 构 ， 这 样 < 有 助 于 确保 你 的 卡 不 会 因为 异常 活动 而 被 标记 ”。( 辐 ] 这 
就 是 假 阳 性 (false positive) 的 一 个 完美 例子 一 一 信用 卡 公司 预测 ， 你 
卡 上 的 消费 行为 有 可 能 是 欺诈 行为 ， 然 而 实际 并 非 如 此 。 


统计 模型 无 法 解释 说 明 的 事件 就 是 预测 误差 的 潜在 之 源 。 正 如 抽 
样 误差 为 我 们 指出 了 抽样 存在 的 不 确定 性 ， 预 测 误差 则 是 衡量 未 来 不 
确定 性 的 一 种 途径 ， 基 本 上 的 方式 是 ， 在 误差 出 现时 比较 预测 结果 与 
现实 结果 。 舍 ) 


往往 用 预测 区 间 (prediction interval) 来 衡量 预测 误差 ， 预 测 区 间 
就 是 我 们 希望 从 中 看 到 下 一 个 数据 点 的 区 间 。 当 信用 卡 公 司 因 为 “被 次 
刷 * 的 信用 卡 而 致电 你 的 时 候 ， 可 能 是 因为 你 最 新 的 消费 记录 超出 了 它 
的 预测 区 间 。( 时 因此 ， 致 电 Visa 并 告知 他 们 你 打算 去 夏威夷 度假 ， 实 
际 上 你 扩大 了 Visa 的 预测 区 间 ， 连 夏威夷 海滩 上 的 和 迈 泰 鸡尾酒 都 能 圳 
HEAT © 


你 可 能 知道 一 一 至 少 本 能 地 知道 ， 距 离 要 发 生 的 事情 时 间 越 近 ， 
预测 结果 越 精准 。 从 统计 学 上 讲 ， 束 是 说 你 的 预测 误差 和 预测 区 间 变 
小 了 。 假 设 现 在 是 5 月 1 日 ， 对 比 次 月 销售 额 与 本 年 其 余 时 间 销 售 额 的 


预测 结果 ， 对 次 月 销售 额 的 预测 结果 的 误差 (预测 区 间 ) 可 能 更 小 ， 
有 以 下 两 个 原因 : 


1. 你 掌握 了 更 多 、 更 新 的 历史 样本 数据 。 如 末 你 试图 在 5 月 1 日 判 
断 年 终 销售 额 情况 ， 你 只 有 当年 4 个 月 的 数据 。 如 果 你 等 到 10 月 1 日 ， 
此 时 你 有 9 个 月 的 数据 。 在 所 有 条 件 相 同 的 情况 下 ， 历 史 数 据 越 多 ， 你 
做 出 的 预测 往往 就 越 精准 。 


2. 类 似 地 ， 从 理论 上 讲 ， 对 比 从 5 月 1 日 至 6 月 1 日 与 5 月 1 日 至 12 月 
31 日 两 个 时 间 段 ， 发 生 在 前 一 时 间 段 的 预见 不 到 的 事情 要 少 。 时 间 越 
长 ， 影 响 你 预测 的 因素 出 现 的 概率 越 大 (新 竞争 者 、 不 同 的 管理 环 
境 、 供 应 商 价格 变动 ， 不 一 而 足 ) 。 


只 是 要 记 住 ， 预 测 误差 跟 抽 样 误差 是 两 回 事 。 在 政治 民 调 中 ， 我 
们 会 遇 到 这 种 困惑 ， 政 治 民 调 常 常 论 及 误差 范围 ， 似 乎 这 仅仅 是 抽样 
问题 。 但 是 抽取 更 多 的 人 -甚至 全 部 人 口 ， 也 不 能 完全 消除 预测 误 
差 。 政 治 候选 人 所 获 的 支持 会 随 着 时 间 推 移 而 变化 。 有 的 候选 人 会 在 
其 竞选 对 手 退 出 时 获得 支持 ， 而 有 的 候选 人 则 因为 辩论 中 的 不 佳 表 现 
En 
民 。 


最 后 ， 我 们 来 谈 谈 预测 偏差 (forecast bias) ， 该 词 被 用 来 描述 一 
Hima 〈 正 偏差 ) 或 者 偏 低 〈 负 偏差 ) 的 预测 误差 。 为 什么 会 发 生 预 
WU ZENE? 也 许 是 你 所 使 用 的 模型 存在 误差 。 比 如 ， 你 在 本 地 经 彰 一 
家 上 自来水 公司 ， 你 想 用 一 种 模型 来 预测 年 度 供水 需求 ， 而 该 模型 没有 
将 城镇 人 口 每 年 增长 5000 人 的 事实 考虑 在 内 ， 那 么 你 得 到 的 可 能 了 驶 是 
负 预 测 偏 差 一 一 需求 总 是 偏 低 。 当 然 ， 预 测 偏 差 也 可 能 是 韶 意 发 生 
的 。 假 设 你 有 一 家 分 公司 ， 次 年 的 预算 分 配 是 根据 你 的 预测 而 做 。 你 
预测 得 越 高 ， 分 公司 得 到 的 钱 就 越 多 。 如 果 存 在 这 类 动机 ， 弄 清 预 测 


AZERE UL fef AC EP LAE TU] SH AS——§ 如 采 你 的 工作 需要 问 人 们 的 预测 ， 


你 下 需要 将 这 点 铭记 于 心 了 。 


1. “Travelling with Your Visa Card,” Visa website, accessed August 2, 2015, 


http://www. visa.ca/en/personal/travelling/index.jsp. 


2. Of course, there are some situations that are entirely predictable. For example,if you have 


a fixed interest rate on a loan, you can calculate exactly what your payments will be for the 


future. 


3. Statisticians may also measure the tolerance interval, which shows how confident we are 


that our prediction interval contains a certain percentage of the expected values. 


4. 迪 安 尖 叫 ; 2004 年 美国 总 统 候选 人 迪 安 在 对 自己 的 支持 者 讲话 时 大 喊 一 声 * 耶 ”， 被 
一 些 选 民 认 为 失态 。 编者 注 
5. *Howard Dean," YouTube video, 0:23, posted by Kittensaremegasilly, October 22, 2006, 


https://www. youtube.com/watch?v=KDwODbI3muE. 


EMEEN 


我 们 采访 了 伊利 诡 伊 大 学 教授 、 商 学 院 商 业 与 公共 政策 中 心 主 任 
杰 弗 里 :布衣 (Jeffrey Brown) ， 他 说 : “正确 看 待 预测 的 方式 是 将 其 看 
作 一 种 缩小 出 现 不 同 结果 可 能 性 的 手段 ， 即 缩小 “任何 事情 都 可 能 会 发 
生 : 与 "这 就 是 可 能 会 发 生 的 结果 :二 者 间 范 围 。” 


但 问题 是 一 一 据 布朗 称 (他 也 是 国家 经 济 研 究 局 退休 人 研究 中 心 的 
联合 主管 ， 为 决策 者 提供 信息 ) :“ 政 治 家 与 民众 不 会 过 多 地 关注 不 确 
定性 ， 他 们 只 想 要 听 到 简单 扼要 的 话 ， 诸 如 ' 社 会 保障 系统 要 破产 
了 或 者 社会 伯 障 会 好 起 来 的 之 类 。” 


任何 评估 都 存在 不 确定 性 ， 然 而 这 并 不 是 有 些 人 所 喜闻乐见 的 
一 一 他 们 只 想 有 要 数字 。 


正如 布衣 所 说 ,“ 大 多 数 经济 学 家 明日 ， 我 们 真正 在 做 的 是 ' 规 
划 ’ 而 非 预 测 :”。 换 句 话说 ， 如 果 生 育 率 、 死 亡 率 或 者 劳动 参与 率 以 特 
殊 的 方式 演变 的 话 ， 我 们 可 以 非常 目 在 地 将 社会 伯 障 系统 内 的 资金 运 
转 方 式 转化 为 模型 。 但 若 要 明确 地 说 明 陈 述 生 育 率 、 死 亡 率 或 者 劳动 
参与 率 将 以 哪 种 特定 的 方式 发 展 ， 我 们 丈 没 那么 目 在 了 。 


不 过 除了 在 数据 统计 方面 受过 训练 (或 者 读 过 这 本 书 ) 的 人 ， 这 
类 的 细微 差别 可 能 对 他 们 来 说 无 足 经 重 。 布 朗 指 出 “结果 是 ， 我 们 党 
常见 到 这 样 的 情形 ， 当 政策 没有 完全 达到 预期 效果 ， 哪 怕 结 果 仍 处 在 
初步 售 算出 来 的 置信 区 间 时 ， 人 们 就 已 经 表达 出 意外 、 失 望 乃 至 愤 轻 
ZT o” 
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到 目前 为 止 ， 我 们 谈论 到 的 许多 预测 都 是 决定 性 的 ， 你 从 预测 中 
得 到 一 个 精确 的 结果 。 比 如 : “今天 要 下 雨 。” 这 跟 地 震 学 家 “预测 ”地 
震 的 方式 类 似 (旧金山 3 月 2 日 将 会 发 生 3.1 级 的 地 震 ) 。 


判断 抛 出 的 硬币 正面 朝 上 还 是 反面 朝 上 束 是 可 能 性 预测 

(probabilistic forecast) 一 个 很 经 典 的 例子 。 可 能 性 预测 即 你 能 够 推断 

出 结果 发 生 的 概率 。 比 如 : “今天 下 十 的 概率 为 20%“。” 这 跟 地 震 学 
家 “预测 ?地震 的 方式 类 似 。 


当 你 抛 硬币 的 时 候 ， 你 知道 要 么 正面 朝 上 要 么 反面 朝 上 。 当 然 ， 
它 也 有 可 能 立 起 来 。 不 过 鉴于 有 文章 估算 说 立 起 来 的 可 能 性 为 
1/6000， 我 们 就 暂且 忽略 不 计 ， 为 了 本 节 主 由， 假设 落下 的 硬币 只 会 
正面 或 者 反面 朝 上 OEM 《美国 统计 学 家 期 刊 》 中 的 一 篇 文章 所 指 
出 的 ， 我 们 还 假设 “ 抛 硬币 不 可 能 出 现 误差 "这 样 硬币 落下 的 时 候 极 
有 可 能 是 正面 或 者 反面 朝 上 。( 早 而且 我 们 是 抛 硬币 ， 而 不 是 旋转 硬币 
一 比如， 一 篇 《在 线 科学 新 闻 》 上 文章 称 ， 一 枚 旋转 的 硬币 反面 朝 
上 的 概率 达 80%， 这 是 硬币 的 重心 转移 到 正面 的 缘故 e ®) 


因此 ， 通 过 我 们 用 抛 出 的 、 不 会 产生 重心 转移 的 、 不 会 立 起 的 硬 
币 ， 可 以 得 出 以 下 结论 


硬币 落下 时 正面 朝 上 的 概率 是 50% 
硬币 落下 时 反面 朝 上 的 概率 是 50% © 
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从 现在 开始 ， 事 情 束 会 变 得 越 来 越 有 趣 了 。 


如 果 你 抛 10 次 ， 硬 币 5 次 正面 基 上 5 次 反面 划 上 的 概率 不 是 509%6， 
实际 概率 甚至 低 于 25% © 


如 果 你 抛 100 次 ， 硬 币 50 次 正面 50 次 反面 朝 上 的 概率 大 概 为 8% © 


哈 ? 


你 们 从 中 可 以 看 出 的 是 ， (理论 上 ) 应 该 发 生 的 事情 与 现实 中 实 
际 发 生 的 事情 是 有 区 别 的 。 人 硬币 本 映 并 不 知道 它 落下 时 应 该 有 一 半 正 
HMR FARSI Eo ERT TW BR a RAIA 
最 有 可 能 发 生 的 事情 并 不 意味 着 真 的 会 变 成 现实 。 


许多 人 也 因 抛 硬币 而 困惑 不 解 ， 因 为 他 们 认为 ， 比 方 说 ， 如 果 你 
抛 两 次 硬币 ， 那 么 硬币 两 次 都 正面 朝 上 的 概率 为 W3， 都 反面 朝 上 的 概 
率 为 13， 一 正 一 反 的 概率 为 3。 但 是 由 于 得 到 一 正 一 反 结果 的 方式 有 
两 种 一 一 A 硬 币 正 面 关 上 ，B 硬 币 反 面 间 上 或 者 A 硬 币 反 面 基 上 ，B 硬 
币 正面 绷 上 一 一 那么 实际 上 硬币 两 次 都 正面 参 上 的 概率 为 4， 都 反面 
绷 上 的 概率 为 114， 一 正 一 反 的 概率 为 2。 记 住 ， 在 你 做 预测 的 时 候 ， 
要 将 所 有 可 能 发 生 的 结果 都 考虑 在 内 。 


当然 ， 你 抛 硬 币 的 次 数 越 多 ， 你 的 结果 吏 越 接近 于 “五 五 开 ”。 为 
WANE? 因为 你 抛 硬币 的 次 数 越 多 ， 你 实际 上 是 从 无 穷尽 的 抛掷 结 
中 选取 了 更 大 的 样本 容量 。 那 么 较 之 于 小 样本 容量 ， 较 大 的 样本 容量 
假设 其 他 条 件 相 同一 一 将 给 予 你 更 精准 的 结果 。 尺 管 大 样本 容量 
不 是 必要 条 件 。1936 年 ，《 文 摘 杂 志 》 (Literary Digest) 在 一 项 调查 
中 收 到 了 230 万 个 回复 ， 并 预测 阿尔 夫 : 兰 登 (Alfred Landon) 在 美国 


总 统 竞选 中 将 得 到 57% 的 选票 ， 从 而 击败 富兰克林 .D. 罗 斯 福 。 而 实际 
上 ， 罗 斯 福 得 到 了 609% 多 的 选票 。 


那么 ， 我 们 谈 过 用 以 往 数 据 预 测 未 来 ， 还 记得 吗 ? 而 在 很 多 例子 
中 以 往 数 据 无 足 轻重 ， 抛 硬币 这 个 例子 吏 是 其 中 之 一 。 那 是 因为 我 们 
知道 抛 硬币 (至 少 从 我 们 叙述 方式 上 看 ) 是 一 件 随 机 的 事情 ， 而 你 不 
能 将 过 去 作为 模型 用 于 随机 事件 当中 。 


如 果 你 抛 10 次 硬币 ， 硬 币 每 次 都 正面 彰 上 ， 那 么 硬币 下 次 正面 阴 
上 的 概率 仍然 为 50%， 即 使 你 抛 100 次 、1000 次 ， 或 者 100 万 次 ， 硬 币 
次 次 都 正面 参 上 ， 下 次 硬币 正面 基 上 的 概率 仍然 是 50%， 因 为 我 们 掌 
握 了 已 知 的 模型 ， 在 此 模型 中 ， 硬 币 正面 瘟 上 、 反 面 划 上 的 概率 均 为 
50% ° 


很 多 人 弄 不 明日 。 他 们 直觉 上 认为 下 一 次 必须 是 反面 萌 上 。 而 从 
统计 学 上 看 ， 他 们 大 错 特 错 。 的 确 ， 你 不 可 能 连续 10 次 抛 出 正面 。 但 
是 这 依然 跟 未 来 没有 丝 诸 关系。*“ 五 五 开 ? 事 件 随 着 时 间 的 推移 会 发 
生 ， 但 十 每 次 抛 硬 币 都 是 独立 事件 ， 与 过 去 发 生 的 事情 时 不 相干 。 


人 们 的 这 种 直觉 被 称 为 “< 赌 徒 座 论 ”认为 你 输 一 阵 之 后 ， 就 会 
赢 了 。 根 据 得 州 农 工大 学 (Texas A&M) 做 的 研究 来 看 ,“ 实 际 上 ， 你 
赢 的 概率 跟 先 前 并 无 区 别 *。( 归 (好 消息 是 ， 错 不 在 你 。 研 究 者 构建 
了 一 个 脑 内 神经 元 模型 ， 发 现 “倾向 于 改变 诸如 正面 -反面 模式 的 神经 
元 的 数量 远 远 多 于 倾向 重复 正面 -正面 的 神经 元 的 数量 ”。 这 个 结论 真 
是 好 。 但 要 记 住 ， 得 出 这 个 结论 的 基础 是 神经 元 模型 ， 而 非 真 实 的 神 


经 元 。) 


作为 明智 的 数据 接收 者 ， 在 分 析 预 测 时 ， 你 需要 留心 赌 徒 廖 论 。 
拉 心 自 间 : 该 预测 是 建立 在 以 往 数据 发 挥 重 要 作用 的 模型 上 吗 ? 或 者 
预测 的 是 完全 独立 于 过 去 的 事件 ? © 


《 乐 透 统计 数据 》 (Lotto Stats) 杂志 上 有 一 句 话 ， 我 们 在 这 里 摘 
下 来 分 享 给 大 家 ， 话 是 这 么 说 的 : “ 当 你 在 玩 每 日 数字 游戏 ' 的 时 候 ， 
面前 的 信息 越 多 ， 赢 的 概率 就 越 大 eS! 
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4. Just make sure what you're looking at is truly an independent event. For example, if 
you're a basketball player shooting free throws, each throw is not an independent event. Yes, 
it's a separate event from the one before. But it's also influenced by other, past factors— 
everything from your fatigue to your state of mind after making (or missing) your past shot. 
That said, there is conflicting research in terms of whether or not athletes can have a s-called 
“hot hand," with one paper finding that * [t] he belief in the hot hand and the ‘detetion’ of 
streaks in random sequences is attributed to a general misconception of chance" (Thomas 
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post- committing- the- gamblers- fallacy- may-be-in- the- cards- new- research- shows. 
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6. 


There's another way of looking at this, known as Bayesian probability (after the 
eighteenth- century English mathematician Thomas Bayes). With Bayesian probability, you 
use the data gathered to update your initial beliefs after the fact.It's the opposite of the way in 
which the gambler's fallacy works. As one of John's colleagues pointed out, it's the difference 
between knowing that a coin is fair and learning about the coin. So, a Bayesian might flip a 
coin 10 times, get heads all 10 times, and adjust his probability to say that the coin was always 
more likely to land heads up. Here's another way to think about it— consider a bowl full of 
Me&M’s on top of a shelf. You can reach inside the bowl, but not see inside it. Your initial 
belief is that approximately 24 percent of the M&M’s are blue (the colors aren't equally 
distributed, according to a blog post from Josh Madison— 
https://joshmadison.com/2007/12/02/ mms- color- distribution- analysis/— and other 
research). You reach inside, take out an M&M, observe the color (blue),and then put it back. 
You do this 10 times, and each time you get a blue M&M.For non- Bayesians, the probability 
of getting a blue M&M on your next turn is still 24 percent. But for a Bayesian, the probability 
is higher, since you've now revised your initial beliefs (based on the sample) to believe that 
more than 24 percent of the M&M’s are blue. 


*3 & 4 Digit, New York's Best Bi-Weekly Numbers Guide," Lotto Stats website,June 18, 
2008, https://www.lotstats.com/pdf/lssampleissue.pdf. That said, if your goal is to split the 
jackpot with as few people as possible, there are strategies you can employ. For example, you 
can pick less popular numbers, such as those above 31 (since many people use dates as their 
“lucky” numbers), and you can choose consecutive strings of numbers, since many people 
think those combinations are less likely to win. Just don't forget about your favorite book 


authors when you hit it big. 


我 们 身边 的 预言 家 


从 庄 斯 特 拉 达 姆 斯 (Nostradamus) 据 称 成 功 预言 了 伦敦 大 火 ， 到 
当今 社会 想 要 成 为 预言 家 的 人 上 断言 “来 日 不 远 了 ”， 世 界 各 地 的 人 长 久 
以 来 都 声称 自己 具有 预测 未 来 的 能 力 。 甚 至 在 舞台 上 ， 预 言 家 也 扮演 
着 很 关键 的 角色 ， 他 们 警告 俄 狄 浦 斯 会 杀 死 自己 的 父亲 《然后 同 母 亲 
ZEUS) | iP RORICA RSS TE3HI5H (Ides of March) 这 一 天 要 
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今天 ， 仍 然 存 在 依 徘 准 确 预 测 未 来 的 能 力 谋生 的 男男女女 。 
不 过 他 们 不 古 预 言 家 ， 不 是 先知 ， 也 不 是 神 使 。 


在 这 个 案例 中 ， 他 们 钙 对 冲 基金 经 理 。 


对 冲 基 金 是 从 不 同 投 资 者 募集 资金 的 投资 项 目 。 该 基金 利用 灵活 
的 投资 战略 赚 取 收益 ， 常 常 存 在 于 富有 的 投资 者 持 有 的 证 券 投资 组 合 
中 。 因 为 通常 来 说 ， 只 有 “合格 的 购买 者 ”合格 的 客户 "或 者 “可 信 的 投 
资 者 ”最 起 码 资本 净值 得 超过 100 万 美元 ， 才 可 以 在 《美国 联邦 证 
券 法 》 的 允许 下 投资 对 冲 基金 。 当 然 ， 即 使 你 不 富有 ， 你 仍然 很 可 能 
对 对 冲 基 金 感 兴 趣 。 比 方 说 ， 如 果 你 是 得 克 萨 斯 州 的 公务 员 或 者 退休 
职工 ， 你 的 养老 金 中 有 大 约 5% 可 以 用 来 投资 对 冲 基金 。 人 四 ) 


对 冲 基 金 经 理 的 工作 像 多 数 投资 者 的 工作 一 样 ， 是 预测 下 一 步 会 
发 生 什么 。 他 得 根据 对 冲 基金 的 目标 买 进 卖 出 投资 项 目 。 而 且 ， 至 少 
有 一 项 研究 表明 ， 即 便 女性 对 冲 基金 经 理 要 比 男性 更 出 色 ， 对 冲 基金 
经 理 通常 都 是 男性 » © 


问题 是 预测 的 准确 与 否 取 决 于 其 所 依据 数据 的 质量 。 


在 我 们 采访 到 Eagle's View 资 产 管理 〈 基 金 内 的 对 冲 基金 ) 创始 人 
及 总 裁 尼 尔 :但 杰 时 ， 他 说 :“ 我 认为 ， 在 华尔街 ， 可 以 根据 10 年 间 的 
收益 得 出 结论 这 样 的 想法 荒 廖 至 极 。* 沁 基金 内 的 对 冲 基金 是 指 投资 
不 同 的 对 冲 基 金 ， 驶 像 投 给 不 同 股票 的 公共 基金 一 样 。“ 哪 伯 辣 前 推 
100 年 ， 痢 不 足以 从 统计 学 角度 得 出 一 条 正 态 分 布 曲线 ，” 伯 杰 补 充 
道 ,“ 我 们 还 未 掌握 充分 的 历史 数据 来 预测 股票 市 场 的 走 同 。” 


当然 ， 在 谈 到 对 冲 基金 和 预测 时 ， 有 一 点 很 有 趣 ， 即 对 冲 基金 
(可 能 因为 管理 费 及 其 他 往往 与 之 相关 的 费用 ) 并 不 总 能 比 股票 市 场 
提供 更 好 的 收益 。 正 如 《 彭 博 商业 资讯 》 的 一 篇 头条 文章 所 提出 
的 :“ 对 冲 基 金 的 收益 连续 5 年 比 股票 收益 低 7.4 个 百分点 。” 归 这 可 能 
是 典型 的 筛选 数据 ， 因 为 看 其 他 时 期 的 数据 时 会 得 出 截然 不 同 的 结论 
包括 一 篇 《华尔街 日 报 》 上 的 文章 也 称 : “15 年 来 ， (对 冲 基金 
的 ) 收益 超过 了 整个 股票 市 场 的 收益 。>* 沁 公平 地 讲 ， 正 如 伯 杰 及 其 
他 投资 家 所 指出 的 ， 在 正常 收益 上 超出 标准 普尔 500 指 数 (一 份 大 约 有 
500 只 且 不 断 变 化 的 股票 名 目 ) 可 能 不 是 所 有 对 冲 基 金 的 目标 。 而 最 终 
目标 往往 是 提供 最 好 的 风险 调整 收益 一 要 采取 调整 风险 的 措施 来 获 
取 收 益 。 尽 管 有 的 时 候 预 测 会 出 现 偏差 。 在 一 个 经 典 的 案例 中 ， 对 冲 
基金 长 期 资本 管理 公司 (LTCM) 不 到 一 年 的 时 间 “ 从 47 亿 美元 中 损失 
了 44 亿 美元 *"， 造 成 该 结果 ， 部 分 归 因 于 利 差 关 系 同 预期 不 相符 。 人 法 


暂且 不 论 它 们 的 表现 ， 对 冲 基 金 有 时 会 因为 对 冲 基金 经 理 所 获 得 
的 薪资 受到 指责 。《 机 构 投 资 者 的 阿尔 法 》 (Institutional Investor 's 
Alpha) 发 布 了 年 度 “ 富 察 榜 ”， 评 估 了 高 级 经 理 的 收入 。 甚 至 在 强调 了 
近 10 年 来 对 冲 基金 经 理 收入 最 少 的 2015 年 的 榜 单 上 ，25 名 上 榜 人 员 “ 加 
起 来 共 赚 了 微不足道 的 116.2 亿 美元 *”。 那 是 他 们 之 前 收入 的 一 半 ， 你 
可 能 会 为 他 们 感到 难过 (尽管 平均 4 亿美 元 的 薪资 就 已 经 很 难 赚 了 ) 。 


显然 ， 预 测 正 确 的 话 ， 可 以 获得 丰厚 的 收入 。 


当然 了 ， 你 不 必 成 为 一 名 受 患 于 预测 的 对 冲 基 金 经 理 。 比 如 ， 正 
如 经 济 学 家 J.J. 普 雷 斯 科 特 (J.J.Prescott) 在 一 次 访谈 中 所 解释 的 那 
样 ， 谈 判 往往 非常 从 重 预测 。 普 雷 斯 科 符 指出 :“ 在 谈判 
中 ，‘BATNA”( 达 成 谈判 协议 的 最 佳 选择 方案 ) 是 谈判 人 员 必 须 了 解 
的 头等 大 事 。 如 有 果 对 方 有 好 的 外 部 选择 RUE) ， 那 么 以 令 人 
满意 的 方式 解决 问题 束 变 得 困难 了 。 因 此 在 和 人 解 谈判 中 ， 你 不 仅 需 
预测 目 己 的 最 佳 备 选 方案 ， 还 要 判断 对 手 的 最 佳 备 选 方案 是 什么 。” 


思考 一 下 ， 一 个 决定 将 会 如 何 对 你 、 你 的 同事 、 你 的 对 手 、 你 的 
EPEAT EKIN o 这样 的 思考 将 会 帮助 你 在 职场 中 占据 优势 地 位 。 
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Global Financial Meltdown,” July 10, 2014, Business Insider website, 
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你 知道 什么 ? 


抛 硬 币 的 结果 是 确定 的 。 所 以 你 可 以 尽情 预测 ， 但 钙 你 知道 结果 
只 能 三 选 一 :正面 朝 上 、 反 面 朝 上 或 者 (如 有 果 你 较真 的 话 ) 立 起 来 。 


许多 预测 会 仅仅 因为 其 实施 方式 ， 导 致 结果 缩小 到 一 个 已 知 的 区 
o 比如， 如 采 你 试图 预测 以 下 和 情况， 那么 你 的 选择 有 限 : 


. 谁 会 赢得 世界 职业 棒球 大 赛 。 
.在 新 学 年 开始 的 时 候 预测 期 未 微 积分 的 成 绩 。 
.猜拳 时 ， 你 的 对 手 会 出 石头 、 出 布 ， 还 是 出 剪刀 。 


从 男 一 方面 来 看 ， 在 有 些 预 测 中 ， 可 能 出 现 的 结果 将 会 多 很 多 ， 
甚至 可 能 有 无 数 种 可 能 。 比 如 ， 如 有 果 你 试图 预测 以 下 情况 ， 那 么 可 能 
出 现 的 结 采 将 会 多 得 多 : 


“50 年 后 ， 谁 会 成 为 美国 总 统 。 
“无 线 电 台 播 放 的 下 一 首 歌会 是 什么 。 


"10 年 后 你 的 职称 〈 还 需 考 虑 到 未 来 的 一 些 工作 在 当前 可 能 闻 所 未 
闻 ) 。 


如 果 你 能 够 限定 结果 的 数量 ， 你 的 预测 可 能 会 发 生 很 大 变化 ， 也 
许 还 可 以 降低 预测 误差 。 每 年 职业 棒球 大 联盟 球 队 无 缘 季 后 赛 时 ， 我 
们 束 会 遇 到 这 种 情况 。 每 淘汰 一 文 球 队 ， 留 下 的 每 文 球 队 最 得 世界 职 
业 棱 球 大 赛 的 可 能 性 束 大 大 增加 。 正 如 预测 的 时 间 范 围 越 短 ， 预 测 的 
结 采 越 精准 一 样 (其 他 条 件 相同 ， 在 有 些 情况 下 ， 通 过 限制 潜在 结 


果 的 数量 ， 你 可 能 会 得 出 更 准确 的 预测 。 然 而 ， 即 便 有 的 时 候 结 采 只 
有 两 种 可 能 ， 老 练 的 民 调 分 析 员 都 可 能 估计 错误 。 


民 调 为 什么 会 出 错 ? 


多 数 人 认为 ， 托 马 斯 -杜威 (Thomas Dewey) 本 可 以 成 为 美国 第 34 
FERS e 
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了 哈里 .杜鲁门 做 总 统 。 


这 件 里 程 碑 式 的 事件 导致 了 20 世 纪 让 人 最 难以 忘怀 的 媒体 乌 龙 之 
一 ， 当 时 《芝加哥 论坛 报 》 印 刷 了 近 15 万 份 带 着 错误 标题 “杜威 击败 了 
杜鲁门 ”的 报纸 。( 洁 ) 


那么 这 是 如 何 发 生 的 呢 ? 民 调 为 什么 错 了 ? 


一 个 因素 是 ， 据 《洛杉矶 时 报 》 报 道 ， 当 时 盖 洛 普 民 调 组 织 联 合 
主席 小 乔治 . 盖 洛 普 (George Gallup Jr) 称 ， 民 调 者 “提早 几 周 ”就 停止 
调研 了 。 人 所 民 调 者 认为 在 选举 前 的 最 后 几 周 民众 的 意见 不 会 有 太 大 的 
变化 了 一 然而 实际 上 有 变化 ， 因 为 杜鲁门 的 支持 者 集合 了 工人 们 的 
选票 。 与 此 同时 ， 民 调 者 彭 斯 ,W<“ 巴 德 " 罗 班 指出， 自负 的 杜威 支持 者 
们 “当时 都 打 高 尔 夫 球 去 了 ”。 包 


另 一 个 因素 是 ， 民 调 模型 建立 在 以 往 选 举 的 基础 之 上 ，1948 年 竞 
选 之 后 ， 选 举 在 很 多 方面 都 发 生 了 变化 。 那 时 ，1932 年 后 的 每 次 总 统 
选举 一 “16 年 的 时 间 一 富兰克林 :罗斯 福 都 参 选 并 赢得 选举 。 在 每 次 
选举 中 ， 罗 斯 福 都 会 击败 一 个 主要 对 手 。 直 到 1948 年 _ 这 场 没 有 罗 
斯 福 参 与 的 竞选 有 四 位 主要 的 竞选 者 (杜威 、 杜 鲁 门 、 斯 特 罗 姆 . 琴 蒙 
德 、 享 利 . 华 莱 士 ) 269 


这 次 ， 报 社 做 了 确定 性 预测 ， 提 前 声明 杜威 将 会 蜂 得 选举 。 但 是 


从 民 调 得 来 的 数据 显然 没有 将 选民 最 新 的 情绪 考虑 在 内 ， 而 且 当时 的 
统计 模型 似乎 是 围绕 着 二 人 竞选 而 创建 的 。 我 们 束 古 这 样 得 出 《时 


代 》 


1. 


杂志 所 说 的 “公认 的 美国 政治 史上 最 具 颠 覆 性 的 事件 "的 。 人 四 


Tim Jones, “Dewey Defeats Truman," Chicago Tribune, accessed July 16, 
2015, http://www.chicagotribune.com/news/nationworld/politics/ chi- chicagodays- 
deweydefeats- story- story.html. Perhaps you’ve seen the famous photo of Harry Truman 
holding up a copy of the paper, a photo taken two days after the election— a nearly 
unimaginable span of time in today’s digital world. That said, the error was also due, in part, to 
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Will Lester, “‘Dewey Defeats Truman’ Disaster Haunts Pollsters,” Los Angeles Times 
website, November 1, 1998, http://articles.latimes.com/1998/nov/01/news/mn-38174. 


Lester, **Dewey Defeats Truman’ Disaster.” 


Thurmond and Wallace each pulled in 2.4 percent of the popular vote nationwide, 
although— given the nature of the U.S. Electoral College system—Thurmond carried four 
Southern states, while Wallace carried none. The 1948 race had all sorts of interesting twists 
and turns. Thurmond got one Electoral College vote from Tennessee, as faithless elector 
Preston Parks decided not to vote for Truman, who had carried the state. (Faithless electors— 
those who don’t follow their party’s wishes— are an example of a variable that can disrupt 
predictions.) In addition, due to efforts by Dixiecrats, Truman was left off the ballot in 
Alabama, despite the fact that he was the sitting president and the official Democratic Party 


nominee. 


Ben Cosgrove, “Behind the Picture: ‘Dewey Defeats Truman’ and the Politics of 
Memory,” Time website, May 4, 2014, http://time.com/3879744/ deweydefeats- truman- the- 
story- behind-a- classic- political- photo/. 


偶然 与 概率 


一 如 往 第 ， 留 意 数据 的 使 用 方式 很 重要 。 比 如 ,假如 今天 晚上 百 
分 之 百 可 以 吃 到 比 陕 与 下 周 百分之百 可 以 吃 到 比 院 ， 从 统计 学 上 讲 ， 
二 者 截然 不 同 。 前 者 ， 你 知道 你 有 一 晚会 吃 比 院 ， 而 后 者 ， 你 也 许 每 
晚 都 吃 比 院 一 一 或 者 7 晚 当 中 ， 你 只 有 一 晚 吃 了 比 院 。 


尽管 有 时 人 们 会 将 概率 (probability) 和 比率 (odds) 二 者 互 换 使 
用 ,但 是 二 者 不 一 样 ， 人 们 第 常 误 用 这 两 个 词 。 概 率 是 某 一 结果 发 生 
的 可 能 性 。 某 事 发 生 的 比率 ， 从 统计 学 上 讲 ， 是 指 有 利 结果 与 不 利 结 
果 二 者 的 比例 。 


拿 一 副 52 张 的 标准 扑克 有 牧 来 说 明 吧 。 


ORF ASK (SHH ^ QRÉ KE) 的 概率 为 23%， 一 副 牌 中 有 12 
张 人 头 牌 ，12 除 以 52 得 出 23% ° 


抽 中 人 头 牌 的 比率 为 12:40 〈 一 副 牌 中 有 12 张 人 头 牌 和 40 张 非 人 头 
牌 ) 。 


概率 和 比率 二 者 是 有 联系 的 
另 一 个 ， 但 它们 是 两 回 事 。 


在 我 们 谈论 未 来 事件 时 ， 你 可 能 也 会 听 到 “风险 ”这 个 词 。 风 险 一 
词 的 含义 因 人 而 异 ， 故 需要 谍 慎 对 每 一 一 耕 你 从 事 的 古 投资 或 者 保险 
业 ， 束 区 其 需要 注意 了 。 不 过 一 般 来 看 ， 风 险 会 把 事件 的 概率 及 后 采 
均 考 虑 在 内 。 


你 可 以 从 其 中 的 任何 一 个 推算 中 


HOON, ie RUE EAE DUAR BR 9 SS ATR TERY, se TE 
R, PAE A EAR 7190; 当 他 表演 扔 刀 时 ， 漏 接 一 把 刀 ， 刀 
砸 到 他 脚 上 的 概率 也 为 1%。 概 率 相同 ， 但 是 风险 却 不 一 样 。 (《 纽 约 
时 报 杂 志 》 中 有 一 篇 题 为 “在 大 目 然 的 赌场 中 ”的 文章 ， 古 写 灾 难 风险 
的 ， 文 章 写 得 十 分 有 趣 ， 让 人 读 得 尺 心 动物 。 你 可 以 读 一 下 ， 了 人 解 低 
估 飓 风 带 来 的 危害 是 如 何 让 美国 保险 业 濒临 破产 的 。 估 ) 


一 件 事情 发 生 的 概率 较 低 并 不 意味 着 它 不 会 发 生 。《 飞 翔 》 杂 志 
的 编辑 在 《大 西洋 报 》 的 一 篇 文章 中 称 ，NASA 对 某 些 部 件 定 下 的 标 
准 为 “发 生 故 障 的 概率 为 1102， 或 者 说 是 109。NASA 称 这 样 的 部 
件 : 不 可 能 发 生 故 障 ”。( 迪 然而 它 并 不 是 不 可 能 。 实 际 上 ， 如 果 数 据 统 
计 无 误 ， 概 率 为 1109 的 事情 将 会 在 每 10 亿 件 事情 发 生 后 出 现 一 次 。 正 
如 伯 杰 所 说 的 ， 赌 场 是 不 会 让 比尔 : 盖 茨 一 次 下 50 亿 美元 的 注 来 赌 
的 。“ 如 果 他 们 是 世界 上 最 不 幸 的 人 ， 他 们 会 因此 而 破产 。” 


尤其 在 你 着 手 去 看 大 数据 集 时 ， 你 可 能 期 待 看 到 这 些 低 概率 事 
件 。 正 如 《华尔街 日 报 》 在 一 篇 关于 彩票 抽奖 中 巧合 事件 的 文章 中 所 
ut: “每 周全 世界 会 有 数 百 万 人 从 成 百 上 千张 彩票 中 选取 数字 ， 巧 合 是 
肯定 会 发 生 的 » rS 


想 想 黑 天 蕊 。 几 百年 前 ， 人 们 认为 不 可 能 存在 黑 天 鹅 ， 仅 仅 是 因 
为 他 们 之 前 没有 见 到 过 任何 黑 天 秘 存 在 的 证 据 。 但 是 看 不 到 黑 天 禾 并 
不 意味 着 黑 天 鹅 不 存在 ， 只 是 我 们 还 没 见 到 而 已 。 现 在 ,“ 黑 天 鹅 * 事 
件 就 是 指 极其 不 可 能 发 生 ， 但 一 旦 发 生 会 带 来 巨大 影响 的 事件 。 该 词 
是 由 在 不 确定 性 这 一 话题 上 著述 颇 丰 的 纳西 姆 .尼古拉斯 - 塔 勒 布 推广 开 
来 的 。 仅 仅 因 为 它 还 未 发 生 不 意味 着 它 不 能 或 者 不 会 发 生 。 黑 天 筷 确 
KFE © 


1. Michael Lewis, “In Nature's Casino," New York Times Magazine, August 26,2007, 
http://www.nytimes.com/2007/08/26/magazine/26neworleans-t.html?pagewanted=all&_r=0. 


2. 


James Fallows, “When a 1-in-a-Billion Chance of Accident May Not Seem‘Safe 
Enough,’ ” Atlantic website, March 28, 2014, 
http://www.theatlantic.com/technology/archive/2014/03/when-a-1-in-a- billion- chance-of- 
accident- may- not- seem- safe- enough/359780/. 


Carl Bialik, “Odds Are, Stunning Coincidences Can Be Expected,” Wall Street Journal 
website, updated September 24, 2009, http://www.wsj.com/arti cles/SB125366023562432131, 
accessed August 2, 2015. 


Taleb cites the rise of the Internet and the events of September 11, 2001, as examples of 
events with black swan characteristics in his book The Black Swan:The Impact of the Highly 
Improbable, 2nd ed., with a new section: “On Robustness and Fragility” (Incerto), Random 
House (2010). 


心理 因素 影响 预测 


到 现在 为 止 ， 我 们 主要 关注 的 是 数据 概念 ， 但 确实 存在 许多 影响 
预测 的 心理 因素 。 比 如 : 


“自负 一 一 《财经 日 报 》 (Journal of Finance) 的 一 篇 文章 发 现 ， 
高 成 交 量 (有 时 可 以 归结 为 自负 ) 会 导致 糟糕 的 财务 状况 ;在 股票 市 
场 回升 近 18 个 百分点 时 ， 交 易 最 多 的 人 获 利 不 到 12 个 百分点 。( 针 


念 惧 一 一 根据 《周刊 》 杂 志 统 计 ， 被 汐 鱼 咬 死 的 概率 为 1/ 
(3.7x106) 。( 时 但 当 你 和 亲友 在 沙滩 上 ， 你 脑海 中 不 停 地 回响 着 《大 
日 效 》 中 的 青 乐 时 ， 你 很 难 进 行 有 你 辑 的 思考 以 及 精准 的 预测 。 


:评定 习性 效应 一 一 正如 《哈佛 商业 评论 》 中 的 一 篇 文章 所 述 ， 人 
们 在 对 某 人 做 出 评判 的 时 候 ， 影 响 评判 结果 的 实际 上 是 评判 者 而 非 被 
评判 者 。 文 章 发 现 ， 通 常 “我 对 你 的 评价 中 ， 有 619% 的 内 容 是 对 我 自身 
BO o e (2) 


预测 未 来 并 非 易 事 。 也 许 这 束 是 电话 灵 媒 收费 昂贵 的 原因 了 。 
《 宋 飞 正 传 》 试 播 集 的 讨论 组 说 它 “ 竞 争 力 不 强 "， 然 而 这 档 市 目 继 续 
播 出 ， 并 成 为 全 天 收视 率 最 高 的 电视 剧 之 一 。 人 局 数据 发 挥 着 关键 作 
H o (ELE A + ERD ra Zt A YA SS AB EM ee 
测 的 几 个 非 数 据 因素 。 留 心 它们 ， 会 让 你 把 工作 做 得 越 来 越 好 。 
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如 何 成 为 一 个 聪明 的 预测 者 


从 你 睁 开眼 在 智能 手机 上 看 到 的 天 气 预报 到 晚间 新 闻 上 最 新 的 大 
选民 调 ， 预 测 无 处 不 在 。 为 了 和 弄 明 日 预测 ， 你 可 以 从 以 下 5 件 事 情 做 
起 。 


1. 知 道 预测 未 来 取决 于 对 过 去 《或 者 模型 ) 的 了 解 。 如 果 
以 往 数 据 或 者 模型 出 现 了 数据 问题 一 一 抽样 误差 、 遗 漏 变 量 、 误 算 平 
均值 、 结 构 变 化 等 一 这 些 问 题 将 在 预测 中 一 一 骏 露 。 


2. 存 在 不 同类 型 的 预测 一 一 尤其 是 ， 确 定性 预测 和 可 能 性 
预测 。 当 你 观察 一 项 预测 时 ， 和 大 清楚 它 的 类 型 。 是 在 说 你 明天 的 高 尔 
夫 锦 标 赛 期 间 会 下 雨 吗 (确定 性 ) ? 还 是 说 比赛 有 40% 的 可 能 性 会 因 
为 下 雨 而 取消 (可 能 性 ) ? 


3. 了 解 术语 。 预 测 和 预知 常常 是 同义词 ， 但 并 不 总 是 如 此 。 当 人 
们 使 用 “可 能 性 “概率 ”风险 ”比率 ”等 词 时 ， 你 得 明日 他 们 在 谈论 什 
么 。 对 于 经 济 学 家 和 地 震 学 家 或 者 预 语 家 和 你 险 公司 噩 管 来 讲 ， 相 同 
的 词 可 能 意味 痢 截 然 不 同 的 事物 。 


4. 知 道 预测 的 准确 性 可 能 会 随 着 时 间 变 化 。 在 第 七 局 时 预测 
棒球 赛 的 最 终 得 分 比 一 开始 就 预测 得 出 的 结 采 更 精准 ， 因 为 你 有 更 多 
可 用 数据 。 当 研发 出 搜集 数据 、 创 建 数据 模型 的 新 技术 、 新 方法 时 ， 
预测 也 会 变 得 更 加 精准 。 只 需 想 想 基因 药物 所 有 的 最 新 进展 ， 这 些 新 
进展 赋予 了 我 们 对 人 类 长 期 健康 做 出 预测 的 能 力 。 也 束 是 说 ， 让 你 改 
变 预测 的 机 会 越 小 ， 你 所 做 的 预测 驶 会 越 精确 。 


5. 允 许 某 种 程度 的 不 确定 性 的 存在 。 正 如 对 冲 基 金 人 尼 尔 . 伯 
杰 所 说 的 ,“ 我 们 不 得 不 在 一 个 永远 不 会 100% 确 定 或 者 100% 舒 适 的 世 
界 中 生活 ”。 让 人 们 甘心 认为 我 们 生活 在 一 个 不 可 预知 的 世界 里 困难 重 
重 。 很 多 人 想 不 明 日 ， 认 为 每 天 日 子 照 单 过 。 但 是 我 们 无 法 降低 每 一 
次 可 能 的 风险 。 我 们 必须 尽 我 们 所 能 做 出 最 佳 判断 。 


纽约 洋基 队 的 著名 球员 尤 吉 - 贝 拉 曾 说 过 这 样 一 句 经 典 的 话 : “做 
预测 本 就 不 易 ， 预 测 未 来 更 难 。” 


BILE YRJFASGEBUXESS: 总 结 


想象 一 下 ， 你 去 动物 园 然后 看 到 只 狮子 ， 远 处 答 子 里 有 头 大 象 ， 
男 外 的 展区 有 长 贷 弄 ， 等 等 。 每 一 种 动物 部 在 目 己 的 隔离 区 域 ， 每 个 
区 域 有 一 个 漂亮 的 小 标签 ， 千 诉 你 更 多 有 头 动物 的 信息 。 


这 束 是 我 们 在 本 书 中 采用 的 方式 ， 每 次 解释 一 种 数据 概念 ， 每 种 
概念 单独 成 章 。 


现在 ， 是 时 候 回 顾 一 下 了 。 


在 现实 世界 中 ， 数 据 问 题 几乎 不 会 孤立 存在 。 你 会 碰 到 多 个 数据 
问题 同时 出 现 的 情况 ， 比 如 ， 仅 仅 因为 你 鉴别 出 了 抽样 误 关 并 不 意味 
着 般 选 数据 、 关 联 性 、 平 均 数 、 预 测 等 问题 不 存在 ， 抑 或 只 是 存在 更 
多 针对 这 件 事 的 抽样 问题 。 有 的 案例 可 能 没有 数据 问题 ， 有 的 则 有 很 
多 ， 你 需要 睁 大 双眼 看 请 所 有 问题 。 


这 束 是 本 章 涉 及 的 全 部 内 容 。 


在 此 ， 你 会 发 现 一 些 我 们 最 喜欢 的 研究 和 故事 ， 这 些 人 研究 和 故事 
展示 了 不 同 的 数据 概念 是 怎样 影响 分 配 、 消 费 、 诠 释 数 据 的 。 


那 我 们 开始 吧 。 


不 要 轻信 头条 新 闻 中 的 数据 


《大 西洋 报 》 上 的 一 篇 文章 提出 了 这 样 一 个 问题 , “为 什么 前 高 中 
运动 员 收入 更 高 ? "( 当 据 该 文章 称 ， 与 高 中 时 代 不 是 运动 员 的 人 相 
比 ， 高 中 时 代 是 运动 员 的 人 最 终 “ 职 位 更 高 >， 薪 资 比 当 年 可 怜 巴 巴 的 
T SCF RAE BOR BD = S ey “5%~15%” © 


好 吧 ， 好 像 高 中 时 代 吹 长 号 的 那些 孩子 还 不 够 惨 似 的 ， 毕 业 后 还 
要 继续 不 如 别人 。 该 文章 吸引 了 “小 数据 夫人 ” (约翰 的 妻子 ) 的 注 
意 ， 因 为 这 类 问题 会 使 成 熟 的 数据 接收 者 不 满 ， 在 她 的 要 求 下 ， 我 们 
调查 了 该 研究 及 基本 数据 。 


文章 是 基于 康 奈 尔 及 南 伊利 诺 伊 大 学 研究员 对 两 组 独特 的 履历 资 
料 集 的 研究 而 撰写 的 。( 忆 从 心理 学 角度 看 ， 履 历 资料 就 是 一 种 自 陈 式 
数据 〈 例 如 传记 数据 ) 。 有 两 项 研究 一 一 第 一 项 研究 抽 选 了 66 名 成 年 
人 ， 让 他 们 参与 一 项 天 于 领导 力 特质 及 以 往 课外 活动 经 验 的 调查 。 这 
部 分 调查 的 目的 是 收集 人 们 对 参与 体育 活动 ， 以 及 课外 活动 是 如 何 与 
诸如 自信、 领导 力 、 目 苯 等 品质 产生 联系 的 看 法 。 


从 这 66 人 组 成 的 样本 中 ， 文 章 作者 得 出 了 以 下 结论 : “人 们 倾 癌 于 
认为 前 学 生 运 动员 会 表现 出 更 强大 的 领导 能 力 及 益 于 组 织 的 个 人 品 
质 ， 但 同时 不 会 心怀 对 重 地 为 他 人 着 想 。” 对 于 这 项 研究 ， 我 们 不 想 花 
费 太 多 时 间 ， 只 想 说 这 类 关乎 个 人 观点 的 调查 往往 会 在 不 同 领域 引起 
争议 (经 济 学 家 往往 表示 严重 质疑 ， 而 产业 组 织 心理 学 家 则 经 常 对 这 
类 调查 数据 加 以 利用 ) 。 然 而 ， 从 统计 学 角度 看 ， 之 所 以 得 出 了 这 样 
的 结论 ， 原 因 在 于 将 所 有 体育 活动 和 非 体 育 活动 泾 渭 分 明 地 区 别 对 
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根据 上 面 的 说 法 ， 我 们 来 关注 一 下 第 二 项 研究 ， 该 研究 就 伊利 诗 
伊 大 学 对 2000 名 老兵 的 调查 进行 了 数据 分 析 。 这 项 研究 中 ， 样 本 包含 
了 历经 二 战 的 931 名 老兵 的 信息 ， 在 2000 年 调查 完成 时 ， 他 们 最 年 轻 的 
ANS, EKA MRR USES EWER, BE 
董 时 就 参与 体育 运动 ， 其 积极 影响 会 “持续 55 年 以 上 ”。 根 据 撰写 者 的 
描述 , “参与 至 少年 竞技 体育 与 个 人 长 远 成 功 与 杀 社 会 性 的 儿 项 指标 之 
间 呈 正 相关 关系 ”。 


下 面 列 出 几 项 针对 上 面 研究 的 调查 结 


首先 ， 人 研究 一 和 研究 二 都 没有 观察 或 者 衡量 高 中 时 代 的 体育 运动 
对 薪资 造成 的 实际 影响 。 这 类 数据 并 不 存在 。 而 这 两 项 研究 观察 的 古 
目 55 年 前 大 学 体育 活动 参与 情况 的 目 陈 式 数 据 与 领导 力 指标 、 贸 易 工 
作 、 高 级 管理 工作 是 如 何 相关 的 。 对 于 考量 一 个 人 是 否 找 到 更 好 的 工 
作 ， 这 样 的 研究 方法 有 失 偏 颇 。 


其 次 ， 这 两 项 研究 的 前 提 是 55 年 前 参与 的 体育 活动 和 之 后 找到 什 
么 样 的 工作 相互 关联 。 而 人 研究 过 程 中 ， 可 以 解释 的 变量 多 少 是 受 限制 
的 ;实际 上 ， 这 两 项 研究 可 以 掌控 的 与 结果 有 关 的 其 他 解释 只 有 年 龄 
BRS WIR © AHS | HT ite A Al: 倘 使 老兵 中 71~93 图 男性 
老兵 这 一 子 集 的 高 中 体育 参与 情况 与 其 他 因素 有 关联 一 一 如 在 《退伍 
军人 法 》 下 至 受 的 福利 、 受 教育 程度 、 二 战 参与 度 、 个 人 能 力 等 ， 结 
果 又 会 怎样 呢 ? 在 许多 对 工作 表现 的 研究 中 ， 这 都 是 一 个 经 典 议题 。 


最 后 ， 老 兵 人 研究 报告 的 撰写 者 还 提出 ， 他 们 的 研究 结果 瞳 指 关联 
性 而 非 因果 性 。 这 项 研究 有 很 多 双 同 分 析 一 一 领导 力 与 体育 运动 、 目 
信和 与 目 草 等 。 接 下 来 是 一 个 可 能 的 解释 : 倘 奋 有 时 间 进 行 体育 运动 的 
孩子 都 是 那些 家 境 语 容 的 〈 比 如 放学 后 不 必 去 打工 ) 会 怎样 呢 ? 小 时 
候 家 境 宫 裕 可 以 对 其 之 后 的 成 功 做 出 解释 。 关 键 是 ， 这 个 问题 纷 粽 复 
杂 ， 寄 希望 于 通过 这 些 特 殊 指标 来 捕捉 真正 的 因果 关系 几乎 不 可 能 。 


我 们 还 没有 把 生物 特征 数据 考虑 进去 一 一 尽管 这 也 是 一 项 有 趣 的 
研究 。 但 上 文 这 个 例子 ， 又 一 次 说 明 从 头条 新闻 中 获取 的 数据 并 不 能 
完全 传达 对 基本 研究 的 微妙 阐释 。 
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Persistent Correlates of Participation in High School Athletics,"Journal of Leadership & 
Organizational Studies 22, no. 2 (May 2015): 217— 230,doi: 10.1177/1548051814538099. 


如 何 看 待 工作 满意 度 调查 ? 


“人 花 多 少 钱 才能 让 律师 开心 ? ” 


这 不 是 开玩笑 是 法 律 360 (Law360) 网 站 上 一 篇 关于 律师 满 
意 度 调 2. x. 


说 真 的 ， 要 伦 多 少 钱 呢 ? 答案 是 什么 ? 每 年 50 万 美元 。 

据 法 律 360 网 的 研究 ， 收 入 超 50 万 美元 的 律师 在 工作 中 更 开心 ， 跳 
槽 的 可 能 性 也 较 小 。 正 如 文章 所 述 , “尽管 幸 福 与 薪酬 高 低 没 有 直接 联 
系 ， 但 50 万 美元 似乎 成 了 一 个 门槛 ， 超 过 它 ， 律 师 们 会 认为 他 们 对 工 
作 的 方方面面 满意 或 者 ‘非常 满意 ”。 © 


法 律 360 网 还 在 一 连 串 与 调查 相关 的 信息 中 发 现 : 
"职业 律师 最 开心 。 


. 同 非 股权 投资 公司 合作 的 律师 * 最 悲 催 ” 。 
.500 人 以 上 大 公司 的 律师 比 小 公司 的 律师 开心 。 


这 些 发 现 可 以 成 为 头条 ， 而 且 必 定 会 在 从 华盛顿 到 达拉斯 的 律师 
事务 所 玻璃 会 议 室 内 引起 一 阵 攻 动 。 


但 是 在 你 为 此 争 得 面红耳赤 之 前 ， 我 们 不 妨 仔 细 看 看 这 个 数据 的 
真正 含义 。 


美国 有 130 多 万 名 律师 。( 归 调查 根据 的 是 其 中 300 名 律师 的 回应 。 
不 过 我 们 更 关注 的 不 是 样本 大 小 而 是 样本 构成 。 因为， 根据 法 律 360 网 


的 文章 来 看 ， 结 论 似乎 基于 回应 调查 的 、 目 我 归 类 的 律师 。 在 你 让 一 
组 人 选择 参与 到 人 研究 中 时 ， 有 可 能 出 现 选 择 偏差 。 结 论 可 能 偏向 于 选 
择 参与 的 那 部 分 人 。 做 出 回答 的 律师 与 那些 因为 过 于 忙碌 而 无 法 回 
答 ， 或 者 由 于 某 种 原因 选择 不 回答 的 律师 有 区 别 吗 ， 这 些 区 别 与 调查 
结果 有 关 吗 ? 比如 ， 有 可 能 出 现 忙 并 快乐 着 的 同 非 股权 投资 公司 合作 
的 律师 没有 时 间 回 应 调查 的 情况 吗 ? 当然 可 能 。 


由 于 这 是 目 陈 式 数 据 ， 律 师 在 调查 中 故 作 开心 、 拾 高 薪资， 提供 
各 种 各 样 错 误 信 息 的 情况 也 可 能 发 生 。 我 们 有 证 据 证 明 他 们 这 么 做 了 
吗 ? 没有 。 但 是 在 这 类 调查 中 ， 并 没有 适当 的 手段 来 保证 不 出 现 误 导 
人 的 (或 者 完全 错误 的 ) 回应 。 目 陈 式 数 据 本 身 未 必 是 问题 ， 问 题 是 
我 们 可 能 因为 目 陈 式 数据 受到 人 为 操纵 而 得 到 错误 的 答案 。 


我 们 来 看 看 法 律 360 网 所 说 的 比 业 余 律 师 笠 福 的 职业 律师 。 不 过 职 
业 律 师 一 一 至 少 回应 该 调查 的 那些 一 一 没有 业余 律师 赚 得 多 。 鉴 于 新 
质 被 认为 是 关乎 幸福 的 ， 也 许 还 有 其 他 变量 在 此 发 挥 作用 ? 抑或 研究 
劳动 法 的 人 只 是 目 然 而 然 地 更 加 积极 乐观 。 遗 漏 变 量 是 什么 呢 ? 我 们 
不 知道 一 一 这 是 个 问题 。 


我 们 也 不 知道 金钱 是否 真 的 “ 令 律师 开心 >， 正如 前 文 提 到 的 标题 
所 述 ， 在 我 们 还 未 看 出 证 明 这 不 只 是 关联 性 的 证 据 时 ， 惑 暗示 了 一 种 
因 采 性 。 实 际 上 ， 在 另 一 个 故事 中 ， 法 律 360 网 指出 “ 笠 福 不 完全 十 由 
p ^ 这 束 增 加 了 人 金钱 之 外 推动 广 福 的 因素 存在 的 可 能 性 。 


还 有 一 个 问题 一 一 缺少 上 下 文 。 如 果 你 读 完 所 有 文章 ， 你 可 能 
解 到 其 中 一 组 律师 的 满意 度 比 另 一 组 高 17%， 或 者 留 在 公司 的 可 能 性 
高 32% 等 。 但 是 法 律 360 网 似乎 没有 忠 其 理解 结论 含义 的 方法 给 出 足够 
多 的 细节 。 律 师 是 否 被 要 求 用 1~5 (也 可 能 用 1~100 或 者 其 他 范围 ) 为 
目 己 的 满意 度 打 分 ?还 十 为 他 们 提供 了 诸如 “不 满意 “满意 ”非常 满 


意 ” 的 克 项 ? 掌握 更 多 调查 方法 的 信息 可 以 更 深入 地 了 解 调查 结 采 的 真 
正 舍 义 ， 还 可 能 发 现 调查 方法 中 的 任何 偏差 。 


a 
JC 


发 布 这 类 结论 的 肯定 不 只 法 律 360 网 一 个 。 我 们 已 经 在 计算 机 、 建 
工程 及 许多 其 他 行业 中 见 过 类 似 的 调查 了 。 我 们 不 是 说 我 们 期 望 
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些 问 题 。 


Aebra Coe, “How Much Money Does It Take to Make A Lawyer Happy?”Law360 
website, August 17, 2015, http://www.law360.com/articles/691712/how- much- money- does- 
it-take-to-make-a- lawyer- happy. 


Andrew Strickler, *Nonequity Partners the Most Miserable Attys in Your Firm," Law360 
website, August 17, 2015, http://www.law360.com/articles/691856/ nonequity- partners- the- 
most- miserable- attys-in- your- firm. 

“ABA National Lawyer Population Survey. Historical Trend in Total National Lawyer 
Population 1878- 2015," American Bar Association, accessed August 17, 2015, 
http://www.americanbar.org/content/dam/aba/administrative/market_research/ total- national- 


lawyer- population- 1878- 2015.authcheckdam.pdf. 


Jacob Batchelor, “Bigger Is Better When It Comes to Making Lawyers Happy,"Law360 
website, August 17, 2015, http://www.law360.com/articles/691835/bigger-is- better- when-it- 
comes-to- making- lawyers- happy. 


出 生 月 份 与 健康 有 关系 吗 ? 


“占星 术 可 能 是 假 的 ， 但 你 出 生 的 月 份 似乎 真 的 与 你 的 健康 有 
关 。”《 华 盛 顿 邮 报 》 如 是 说 S| 


此 话 当真 ? 


我 们 同意 占星 术 有 些 方面 不 真实 ， 不 过 你 出 生 的 时 间 真 会 影响 你 
的 健康 ? 


你 首先 要 做 的 事情 就 是 思考 该 研究 是 不 是 被 媒体 广 解 了 。 之 前 我 
们 确实 过 到 过 一 一 有 一 篇 科学 论文 探究 了 二 者 的 关联 性 ， 随 后 被 媒体 
添 油 加 酷 一 香 ， 成 了 二 者 上 蜡 舍 因果 性 。 然 而 ， 在 这 个 例子 中 ，《 华 盛 
顿 邮 报 》 的 报道 如 往常 一 样 似乎 是 真实 的 。 文 章 仔 细 地 解释 了 你 出 生 
的 时 间 与 你 今后 可 能 乌 患 的 “疾病 之 间 存 在 联系 ?”。 而 当 我 们 去 看 《 美 
国医 药 信息 学 协会 期 刊 》 (Journal of the American Medical Informatics 
Association) 上 的 原始 研究 时 ， 其 证 实 了 我 们 在 《华盛顿 邮 报 》 上 看 
到 的 内 容 。 人 研究 指出 : “一 个 人 的 出 生 月 份 对 今后 所 患 疾 病 有 着 重要 的 


影响 o m) 


那 好 ， 接 下 来 的 一 步 是 试 着 弄 明 日 出 生 月 份 与 疾病 二 者 存在 联系 
的 原因 。 跟 往常 一 样 ， 我 们 从 调查 样本 开始 。 尺 管 研 究 员 查看 了 175 万 
人 的 记录 (样本 容量 似乎 很 充足 ) ， 但 是 他 们 只 抽取 了 在 曼哈顿 的 纽 
约 长 老 会 医院 及 哥伦比亚 医学 中 心 接受 治疗 的 病人 。 目 不 必 说 ， 曼 哈 
顿 代表 不 了 整个 纽约 城 ， 更 不 用 说 整个 美国 了 一 一 或 者 往 大 里 说 ， 全 
球 人 口 了 。 比 方 阅 ， 仅 有 1% 的 病人 被 认定 是 亚洲 人 (尽管 在 占 了 样本 
容量 近 50% 的 “其 他 ”及 “未 识别 ”分 类 中 可 能 会 有 更 多 人 ) 。 


那么 ， 样 本 中 的 内 容 能 够 解释 出 生 月 份 与 疾病 的 关系 ， 这 可 能 
吗 ? 倘 者 在 元 旦 前 夜 ， 时 代 广 场 上 的 五 彩 纸 悄 引发 了 与 出 生 月 份 相关 
的 健康 问题 一 一 哮 喧 ， 会 怎样 呢 ? 这 正 是 你 需要 考虑 的 存在 遗漏 变量 
的 情况 。 换 句 话 说， 出 生 月 份 是 导致 一 些 人 疾病 高 发 的 原因 吗 ? 或 者 
说 出 生 月 份 只 二 与 疾病 具备 关联 性 ， 而 真正 引发 疾病 的 是 其 他 因素 ? 
例如 ， 正 如 笔者 所 言 ， 季 市 性 因素 (过 敏 、 晒 太阳 等 ) 也 可 能 会 发 挥 
作用 。 


作为 一 个 明智 的 数据 接收 着 ， 你 还 考虑 到 了 什么 ? 下面 古 一 个 有 
趣 的 观察 一 一 在 研究 中 ， 研 究 员 发 现 了 同 出 生 月 份 * 妃 恩 相 关 ?” 的 55 种 
疾病 。 单 独 来 看 ， 数 目 巨 大 。 但 是 研究 员 调查 了 1688 种 不 同 疾病 的 数 
据 ， 这 意味 着 ， 在 他 们 研究 的 疾病 当中 ， 仅 有 约 3% 的 疾病 与 月 份 有 联 
系 。 有 时 ， 鉴 于 显著 性 往往 衡量 着 某 种 关系 的 概率 ， 你 研究 的 数据 越 
多 ， 你 越 有 可 能 发 现 具有 显著 性 差异 的 结果 。 出 生 月 份 和 疾病 之 间 的 
关系 是 不 是 随机 可 能 性 造成 的 呢 ? 有 的 P 值 小 于 0.001， 而 有 的 则 非常 
高 。 这 种 结果 可 能 是 我 们 之 前 讨论 过 的 多 重 比较 所 导致 的 。 


那么 现在 我 们 还 有 个 问题 ， 我 们 该 如 何 处 理 这 些 数据 ? 我 们 来 看 
一 下 影响 的 尺度 (大 小 ) 。 在 有 些 情 况 下 ， 出 生 月 份 可 让 患 病 风 险 升 
高 约 5%， 或 让 寿命 缩短 或 者 延长 四 五 个 月 。( 轩 这 足够 让 人 忧心 了 吧 ? 


最 后 ， 我 们 来 思考 一 下 这 个 数据 会 对 你 的 生活 产生 怎样 的 影响 。 
研究 者 提 到 的 55 种 疾病 都 会 对 人 们 的 生活 产生 不 同 的 影响 。 比 如 哮 
喘 ， 可 以 通过 药物 或 者 改变 生活 方式 得 到 治疗 ， 而 一 些 心血 管 疾病 

CER TEILTE 7] 3638) 处 理 起 来 要 更 加 周密 细心 。 除 了 个 人 的 健康 问 
题 ， 你 会 如 何 运用 这 些 发 现 来 决定 何 时 生 和 孩子? 如 采 你 在 约会 ， 你 会 
问 对 方 的 生日 是 什么 时 候 ， 以 过 滤 掉 潜在 的 不 健康 的 退 求 者 吗 ? BUR 
多 研究 一 样 ， 这 项 研究 也 所 出 了 诸多 问题 ， 不 仅 与 数据 的 统计 学 影响 
有 关 ， 还 涉及 对 我 们 生活 造成 的 经 济 影响 。 


Ana Swanson, “Scientists Have Discovered How the Month You're Born Matters for 
Your Health," Washington Post website, June 15, 2015, 
http://www.washingtonpost.com/news/wonkblog/wp/2015/06/15/ what- your- birth- month- 
means- for- your- risk-of-disease/. 


Mary Regina Boland, Zachary Shahn, David Madigan, George Hripcsak, and Nicholas P. 
Tatonetti, “Birth Month Affects Lifetime Disease Risk: A PhenomeWide Method,” Journal of 
the American Medical Informatics Association (June 3,2015), doi: 
http://dx.doi.org/10.1093/jamia/ocv046. 


The reasons vary based on the medical condition. For example, the researchers(citing 
other studies) noted that “individuals born in seasons with more abundant home dust mites had 
a 40% increased risk of developing asthma complicated by dust mite allergies,” given that 


“sensitization to allergens during infancy increases lifetime risk of developing allergies.” 


如 何 解读 关于 问题 学 生 的 数据 ? 


哪怕 在 中 学 ， 孩 子 们 都 知道 < 要 酷 的 学 生 ?” 都 是 什么 德行 。 他 们 会 
看 少儿 不 是 的 电影 、 会 从 当地 便利 店 偷 零 食 ， 还 会 踊 在 学 校 后 面 抽烟 
(或 者 更 带劲 儿 的 东西 ) 。 


但 是 这 些 营 是 生 非 的 青少年 终究 会 改 挥 这些 陋 习 的 ， 对 吧 ? 难道 
中 学 时 期 的 小 混混 就 没有 希望 了 吗 ? 通过 你 13 多 时 的 所 作 所 为 真 的 能 
预测 到 23 岁 的 你 何去何从 吗 ? 


如 果 你 的 孩子 是 少年 犯 ， 你 可 能 就 不 想 看 接 下 来 的 内 容 了 。 因 为 
研究 者 发 现 ， 孩 子 青春 期 早期 假装 成 熟 的 行为 (孩子 努力 表现 得 比 实 
际 年 龄 大 ) “预示 着 长 期 的 亲密 关系 障碍 、 严 重 的 酒精 及 药物 使 用 问 
题 ， 以 及 犯罪 行为 严重 程度 的 况 升 ”。( 舍 ) 太 吓人 了 。 


该 研究 第 一 段 首先 借 莎 士 比 亚 、 詹 姆 斯 - 迪 思 、 蒂 娜 - 菲 之 名 来 
抬 高 自己 一 “发 表 于 《儿童 发 展 》， 随 后 还 被 多 个 媒体 报道 ， 鉴 于 所 
讨论 的 话题 颇具 争议 性 ， 所 以 这 样 的 反响 不 足 为 奇 。 在 新 闻 发 布 会 
上 ， 主 持 该 项 研究 的 教授 试图 解释 早期 行为 与 后 期 结果 之 间 的 联系 。 
从 理论 上 说 ， 随 着 时 间 推移 ， 现 酷 的 孩子 “需要 用 越 来 越 极端 的 行为 来 
LA CR © 


此 时 ， 假 如 你 是 家 长 ， 你 可 能 读 到 这 项 研究 结果 ， 并 想 把 孩子 锁 
在 房间 里 直到 他 们 30 多 。 但 是 作为 一 名 数据 接收 着 ， 你 可 能 就 会 从 其 
他 几 个 角度 来 看 待 这 项 研究 。 


比如 ， 你 可 能 想 知道 这 些 青少年 是 如 何 从 全 国人 中 挑选 出 来 的 
一 一 抽样 。 研 究 者 研究 了 公立 学 校 中 来 目 美 国 东 南部 城区 及 郊区 的 孩 


子 ， 他 们 的 家 人 说 他 们 对 这 项 研究 感 兴趣 。 同 样 的 结论 适用 于 那些 在 
家 学 习 或 者 在 私立 学 校 读书 的 孩子 吗 ? 东南 部 以 外 地 区 的 孩子 们 当中 
也 能 发 现 相 同 的 行为 模式 吗 ? 那些 家 人 没 兴趣 参与 这 项 研究 的 孩子 
们 ， 又 是 如 何 ? 在 这 种 情况 下 ， 我 们 没有 可 以 明确 证 明 结 论 会 如 何不 
同 的 数据 。 


在 研究 涉及 的 6 个 地 区 中 ， 人 研究 人 员 谈 到 了 求 数 据 平 均值 的 方法 。 
比如 ， 人 研 完 者 选取 了 多 年 以 来 酒精 摄 入 的 数据 ， 通 过 取 乎 均值 来 得 出 
一 个 总 体 的 药物 使 用 得 分 。 征 的 ， 在 一 些 案 例 中 ， 数 据 征 目 陈 式 的 。 


研究 还 突出 了 另外 一 个 值得 注意 的 问题 一 一 把 从 一 个 样本 预测 出 
的 结果 应 用 到 一 个 不 同 的 样本 集 或 数据 总 体 中 。 媒 体 报道 这 些 类 型 的 
研究 时 ， 有 时 会 发 生 这 类 情况 。 比 如， 一 家 媒体 (出 于 保护 目的 ， 蜀 
不 提名 了 ) 刊登 了 一 篇 讲述 中 学 时 代 的 行为 如 何 能 够 影响 “你 们 的 未 
来 ”的 文章 。 这 篇 文章 要 了 点 小 聪明 ， 文 章 并 没有 说 184 名 青少年 的 行 
为 如 何 预示 他 们 的 未 来 ， 而 是 以 你 们 为 对 象 一 一 是 说 给 读者 昕 的。 


当 媒 体 报道 或 者 原始 研究 开始 将 结果 归 因 于 样本 集 之 外 的 人 或 者 
其 他 主体 时 ， 那 束 涉 及 了 外 延 有 效 性 一 一 这 是 我 们 衡量 结论 是 否 适用 
于 样本 之 外 的 一 种 方法 。 有 的 时 候 适 用 ， 有 时 候 不 适用 一 一 但 这 是 你 
需要 注意 的 事情 ， 特 别 是 在 读 新 闻 的 时 候 。 


1. J. P. Allen, M. M. Schad, B. Oudekerk, and J. Chango, “What Ever Happened to the 
‘Cool’ Kids? Long- Term Sequelae of Early Adolescent Pseudomature Behavior,” Child 
Development 85, no. 5 (September/October 2014): 1866- 1880. 


2. “New Study Sheds Light on What Happens to ‘Cool’ Kids," Eureka Alert!, Public 
Release, June 12, 2014, http://www.eurekalert.org/pub releases/2014-06/sfri- nss060514.php. 


如 何 使 用 房价 评估 网 站 的 数据 ? 


如 果 你 想 买 卖房 子 ， 应 该 对 Zillow 网 有 所 耳闻 。 凭 借 其 容纳 美国 
超过 1.1 亿 家 房子 的 数据 库 ，Zilow 网 几乎 能 够 让 你 看 到 美国 任意 一 套 
房子 的 售 价 。 人 四 


多 多 少 少 可 以 这 么 说 吧 。 


这 就 是 它 的 运作 模式 : 在 你 寻找 房子 时 ， 你 会 看 到 “Z 评 
fh" (Zestimate) ， 它 被 冠 以 Zilow 好 听 的 品牌 名 ， 主 要 用 于 房产 市 场 
价值 评估 ° 


Zillow 网 运用 了 依托 于 公开 数据 及 用 户 提 交 数 据 的 专 有 公式 得 出 Z 
评估 的 结果 。 根 据 其 网 站 的 说 法 ， 该 公司 掌握 了 有 关 房 产 的 各 种 数 
据 ， 包 括 : 

"建筑 面积 。 


ALE 


“房间 及 卫生 间 数 目 。 
“房产 税 数据 。 
“ 同 区 域内 其 他 房产 的 可 比 销售 情况 。 


实际 上 ， 你 现在 就 可 以 在 Zillow 网 上 得 看 自家 房屋 ， 看 看 Zillow 网 
认为 你 家 房屋 值 多 少 钱 一 即便 房子 是 几 年 前 买 的 都 行 。 


WFR AIR KR T3 Hh ZEA, Zillowh BAY emi He T De EA 
评估 了 。 例 如 ， 在 我 们 查看 Zilow 网 的 数据 时 ， 佛 蒙特 州 没有 一 栋 房 
子 有 Z 评 估 资 料 。 人 思 完 全 没有 相关 信息 。 如 果 你 住 在 新 泽 西 ， 你 就 幸 
运 了 一 一 Zillow 网 为 “化 园 之 州 ”99.4% 的 房屋 做 了 Z 评 估 。 


即便 Zilow 网 指出 Zz 评估 并 非 对 价格 的 评估 ， 许 多 人 在 买卖 房屋 的 
时 候 仍然 依赖 它 。《 洛 杉 矶 时 报 》 上 的 一 篇 文章 指出 “如 果 在 售 房 屋 的 
Z 评 估 为 35 万 美元 ， 买 家 可 能 会 对 卖家 价目 表 上 的 42.5 万 美元 产生 怀 
疑 ”。( 当 类 似 地 ， 卖 家 可 能 会 问 经 纪 人 为 什么 他 们 房屋 的 价目 表 会 远 
远 低 于 Z 评 估 。 


“每 周 我 们 都 会 遇 到 因为 从 Zillow 了 网 上 看 到 某 个 参考 价格 ， 就 死 死 
咬 住 不 放 的 顾客 。” 


一 家 不 动产 经 纪 公司 的 工作 人 员 在 为 《华盛顿 邮 报 》 撰 文 时 写 
道 ， 他 还 在 文中 称 Zillow 网 的 估价 “ 极 不 准确 且 反 复 无 常 "。 (时) 


在 《华盛顿 邮 报 》 的 一 篇 辩驳 文中 ，Zillow 网 首席 经 济 学 家 说 ， 
人 们 不 可 能 100% 确 定 地 预测 出 一 座 房 屋 的 销售 价格 ， 同 时 还 承认 一 项 
华盛顿 哥伦比亚 特区 的 研究 中 所 说 的 ， 不 动产 经 纪 人 的 表现 胜 过 
Zilow 网 。 他 问 道 : “一 个 消息 灵通 的 人 比 电脑 更 擅长 估算 私人 房屋 价 
格 吗 ? 当然， 答案 是 肯定 的 。 但 两 者 所 估算 出 来 的 价格 比 你 想象 的 
要 接近 。" 当 ) 


所 以 你 该 如 何 解 读 以 上 所 有 这 些 信息 呢 ? 


随 看 你 开始 深入 挖掘 数据 ， 你 将 会 发 现 ，Zillow 网 为 每 一 个 地 区 
设 定 了 一 个 名 为 平均 错误 率 的 东西 。 平 均 错 误 率 是 一 个 百分数 ， 它 告 
诉 你 在 这 个 区 域 有 一 半 的 Z 评 佑 价格 比 算 上 错误 率 更 接近 最 终 销 售 价 
格 ， 另 一 半 则 相差 较 远 。 


比如 ， 当 我 们 在 看 洛杉矶 地 区 的 数据 是 ， 平 均 错 误 率 为 76。 这 意 
味 着 一 半 的 房屋 售 价 与 Z 评 估 的 估价 差距 小 于 7% ( 记 住 ， 这 里 的 7% 既 
可 以 表示 更 贯 ， 也 可 以 表示 更 便宜 一 一 所 以 一 座 售 价 80 万 美元 的 房子 
价格 会 在 74.4 万 美元 和 85.6 美 元 之 间 波 动 ) 。 当 然 ， 平 均 错 误 率 也 意味 
着 一 半 在 售 房 屋 会 以 这 个 范围 之 外 的 价格 售 出 一 一 要 么 小 于 Z 评 估 的 
796, Si 796 » (9) 


在 有 些 情况 下 ，Zillow 也 提供 它 所 谓 的 “价值 区 间 ”， 价 值 区 间 表 明 
房屋 的 预 估 最 高 价 和 最 低 价 。 正 如 其 网 站 所 解释 的 ， 这 个 区 间 实 际 上 
一 个 70% 的 置信 区 间 ， 意 味 着 在 70% 抽 样 中 ， 房 屋 价值 应 该 在 该 区 间 
Ns 


换 句 话说 ，Z 评 估 应 该 将 其 本 身 的 平均 错误 率 考虑 进去 。 值 得 称 
赞 的 是 ，Zillow 网 公开 了 平均 错误 率 并 对 其 加 以 解释 。 它 甚至 通过 四 
星 评价 系统 简化 了 全 部 操作 ， 来 告诉 你 Z 评 估 有 多 么 准确 (如 你 所 预 
料 到 的 ， 星 级 似乎 与 平均 错误 率 一 致 ) 。( 沁 问题 是 ， 许 多 人 仅仅 关注 
Z 评 估 而 忽略 了 其 背景 ， 正 如 许多 人 看 民 调 时 不 考虑 误差 范围 一 样 
他 们 只 看 谁 将 会 “胜出 ”。 然 而 通过 忽略 附加 数据 一 不 管 是 平均 
错误 率 、 误 差 范围 还 是 置信 区 间 ， 你 没有 从 大 局 着 眼 。 假 设 你 住 在 华 
盛 顿 哥 伦比 亚 特 区 ， 在 Zilow 网 罗列 的 顶级 都 市 圈 中 ， 该 地 区 的 Z 评 估 
精确 度 最 高 。( 电 如 果 你 试图 卖 掉 一 座 Z 评 估 为 50 万 美元 的 房屋 ， 尽 管 
你 的 房屋 估价 的 平均 错误 率 在 5% 以 内 ( 记 住 ， 只 有 一 半 的 房子 如 
此 ) ， 那 意味 着 房价 可 能 会 比 预 估 值 多 或 者 少 2.5 万 美元 (50 万 美元 的 
596) 。 那 就 是 5 万 美元 的 区 间 。 


Z 评 估 也 很 有 趣 ， 因 为 有 的 人 会 将 它们 当 预 测 来 用 ， 试 图 判断 在 
未 来 房屋 会 卖 出 什么 样 的 价钱 。 但 是 zillow 网 上 明确 地 说 明 ，Z 评 估 基 
于 房屋 “当下 ”的 价值 。 沁 鉴于 Z 评 估 总 是 每 周 升级 三 次 ， 在 你 评估 房 
屋 到 卖 出 房屋 中 间 这 段 时 间 内 ， 你 所 在 区 域 (或 者 其 他 因素 ) 房屋 销 
售 额 有 可 能 会 改变 一 座 房 屋 的 Z 评 估 。 在 此 有 两 个 启示 一 首先 ， 在 
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测 偏差 考虑 在 内 一 无 论 它 已 经 计算 在 内 了 ， 还 是 你 正 因 其 对 预测 做 
出 调整。 


最 后 ， 想 想 Z 评 佑 是 通过 什么 得 出 的 。 是 通过 一 个 专 有 公式 得 出 
的 ， 这 意味 着 你 无 法 了 解 其 中 涉及 的 所 有 因素 。 至 少 它 部 分 依赖 于 目 
陈 式 数 据 ， 我 们 知道 (在 一 些 情况 下 ) 它们 不 是 百分之百 可 靠 的 。 而 
可 用 数据 的 数量 可 能 随 着 地 区 不 同 而 不 同 ， 或 者 同一 地 区 内 ， 每 周 都 
发 生变 化 。 如 末 你 没有 数据 ， 那 你 号 需 要 用 上 你 手中 的 样本 。 如 果菜 
一 地 区 有 较 多 的 交易 量 ， 这 会 为 Zilow 提 供 更 多 数据 ， 然 后 Z 评 估 可 能 
会 更 精确 些 。 


或 者 ， 我 们 觉得 Zillow 会 说 一 一 “ 贼 精确 ” (Zaccurate) ° 


= 


We say “nearly” any home because Zillow doesn’t appear to track every home in the 
U.S., based on data we compared from the American Housing Survey from the U.S. Census 
Bureau. (The United States Census Bureau, American Housing Survey (AHS), last revised 
May 14, 2015.) That said, the differences we found could be due to time (the data was 
collected approximately two years apart), or due to definitions in terms of what constitutes a 
“housing unit” (for the bureau) versus a “home” (for Zillow). The data we looked at includes: 
Table C-01-AH,American Housing Survey, accessed August 6, 2015, 
http://www.census.gov/programs- surveys/ahs/data/2013/ national- summary- report- and- 
tables--- ahs- 2013.html. This number is itself based on a sample of 70 million housing 
units.We also looked at “Zestimate,” Zillow website, accessed August 6, 2015, 
Zestimate_Accuracy_2015_03_31, http://www.zillow.com/zestimate/#what. 


2. Zillow offers quite a bit of information about its Zestimates— including a downloadable 
Microsoft Excel spreadsheet that shows their accuracy (we found the link here: 
http://www.zillow.com/zestimate/) and a website dedicated to data(“Zillow Real Estate 
Research," Zillow website, accessed August 6, 2015, http://www.zillow.com/research/data/). 


3. Kenneth R. Harney, “Inaccurate Zillow ‘Zestimates’ a Source of Conflict Over Home 
Prices," Los Angeles Times website, February 8, 2015, 
http://www. latimes.com/business/realestate/la-f- harney- 20150208- story.html. 


B 


Keep in mind that real estate agents may have less to lose than you do when it comes to 


reducing the price of your house. For example, if your house sells for$300,000, your agent 


10. 


might get $5,250 (a 7 percent listing fee = 3.5 percent for the buyer's agent, and 3.5 percent 
for the seller's agent; of that 3.5 percent, half may go to the agent, and half to the agency, so 
each agent ends up with 1.75 percent). If you lower the price of your house and it sells for 
$250,000, your agent only loses $875 (1.75 percent of $50,000) but you've lost a lot more. 


David Howell, *How Accurate Is Zillow's Zestimate? Not Very, Says One Washington- 
Area Agent," Washington Post website, June 10, 2014, 
http://www.washingtonpost.com/blogs/where-we-live/wp/2014/06/10/ how-  accurate-is- 


zillows- zestimate- not- very- says- one- washington- area- agent/. 


The study found that initial Zestimates “were within 5 percent of the ultimate sale price 
46 percent of the time," while real estate agents' initial list prices were within 5 percent *76 
percent of the time." Stan Humphries, *How Accurate Is the Zestimate? Zillow Says the Tool 
Is Helpful When Used the Right Way,"Washington Post website, June 10, 2014, 
http://www.washingtonpost.com/blogs/where-we-live/wp/2014/06/10/ how- accurate-is- the- 


zestimate- zillow- says- the- tool-is- helpful- when- used- the- right- way/. 


Note that we looked at data from a specific day, and that the values may have changed 


between then and whenever you're reading this. 


Zillow says stars are “tied to" the median error rate. In the data we reviewed, a median 
error rate of 5.3 percent to 7.4 percent got four stars, 7.6 percent to 8.9 percent got three stars, 
9.1 percent to 11.8 percent got two stars; and areas with one star didn't have a median error 
rate given. 


Including a four- star rating and the lowest median error rate for top metro areas,which 
was 5.0 percent when we reviewed it on September 1, 2015 (last updated August 26, 2015). 


“Zestimate,” Zillow website. 


“Zestimate,” Zillow website. Although we should note that Zillow does offer a Zestimate 
forecast for some properties (http://www.zillow.com/blog/ zestimate- forecast- 151664/), and it 
has a Zillow Home Value Index (http://www.zillow.com/ home- values/) that offers predictions 


about the housing market. 


如 何 成 为 一 个 成 熟 的 数据 接收 者 


一 如 往常 ， 在 本 章 的 结尾 ， 我 们 列 出 5 件 想 成 为 一 个 成 熟 的 数据 接 
收 者 现在 束 可 以 做 的 事 。 由 于 这 是 本 书 最 后 一 草 了 ， 所 以 我 们 从 整体 
着眼 。 下 面 是 我 们 希望 你 们 在 日 常生 活 中 人 过 到 数据 时 需要 铭记 的 5 个 要 
in? 


1. 当 你 看 到 、 听 到 数据 时 ， 要 学 会 识别 数据 。 一 篇 报纸 上 的 
文章 、 广 播 故事 、 来 目 供应 商 的 电子 邮件 、 孩 子 的 成 绩 单 、 下 周 的 销 
售 额 预测 、 地 图 等 全 部 都 是 数据 。 不 论 你 住 在 哪里 ， 在 做 何事 ， 你 每 
天 都 可 能 被 数据 所 围绕 。 


2. 确 保 事 实 正确 。 许 多 数据 问题 只 是 一 个 错误 导致 的 。 或 许 电 
子 表 格 中 的 公式 用 错 了 ， 或 者 关键 数值 的 小 数 点 放 错 了 位 置 。 也 许 一 
位 博 主 无 意 间 曲解 了 一 项 最 新 的 科学 研究。 你 首先 应 该 做 的 一 步 是 核 
实 你 看 到 的 数据 是否 正确 。 


3. 了 解数 据 来 源 ， 以 及 展示 这 些 数 据 的 人 是 谁 。 在 有 些 情况 
下 ， 个 人 或 者 组 织 可 能 会 有 周密 的 计划 ， 这 意味 着 他 们 可 能 会 调整 数 
fe 〈 你 也 可 以 称 之 为 筛选 数据 ) ， 使 其 符合 他 们 要 传达 的 信息 。 毕 
竟 ， 你 通 利 不 会 听 到 民主 党 总 统 候选 人 侈 扬 共和 党 人 领导 的 倡议 活动 
(反之 亦 然 ) 。 甚 至 在 没有 明显 目的 的 情况 下 ， 你 接收 到 的 数据 也 有 
出 入 ， 以 茶 种 方式 被 搜集 并 传播 一 一 能 够 影响 最 终结 采 的 所 有 因 和 又 近 
在 眼前 。 


4. 留 意 明 显 的 数据 陷阱 。 你 很 有 可 能 会 打开 家 乡 的 报纸 (或 者 
浏览 网 站 ) ， 然 后 发 现 一 则 新 闻 ， 新 闻 中 的 数据 仅仅 证 明了 关联 性 ， 
而 字里行间 却 在 上 暗示 因 末 性 。 以 我 们 的 经 验 来 看 ， 正 第 情况 下 ， 你 最 


有 可 能 遇 到 的 一 些 其 他 因素 是 什么 ? 样本 数量 小 、 结 果 存 在 非 显著 性 
差异 或 者 存在 显著 性 差异 ， 不 过 带 来 的 效应 很 小 | 、 欺 驴 性 平均 值 
以 及 包括 信息 可 视 化 在 内 的 误导 性 可 视图 形 。 


5. 要 知道 ， 正 确 解读 数据 能 够 帮助 你 做 出 更 好 的 决定 。 最 
后 ， 这 才 和 是 本 书 的 初衷 一 一 分 析 数 据 以 解答 关乎 目 身 的 问题 。 下 一 季 
度 你 公司 的 销售 额 将 会 有 多 高 ? 关于 致癌 食品 的 最 新 研 究 是 你 应 该 担 
心 的 事情 吗 ? 严 一 栋 避 嗜 别墅 ， 什 么 样 的 价格 才 算 合理 ? 发 现 对 你 的 
生活 影响 最 大 的 问题 ， 然 后 看 看 你 会 如 何 运 用 本 书 里 的 方法 解答 问 


题 。 


到 此 就 结束 了 。 
其 实 并 没有 。 
因为 当 你 第 二 天 早上 醒 来 的 时 候 ， 你 会 被 更 多 的 数据 狂 季 洪 炸 。 
更 多 的 抽样 及 筛选 数据 的 情况 也 会 发 生 ， 更 多 的 人 会 混淆 关联 性 与 因 
果 性 ， 会 有 更 多 的 网 站 、 博 客 、 新 闻 广播 不 停 给 你 灌输 你 该 或 者 不 该 
做 什么 ， 从 而 让 自己 寿命 更 长 、 头 脑 更 灵 、 活 得 更 好 。 


但 愿 ， 读 完 本 书 ， 你 能 够 运用 所 学 到 的 知识 ， 看 到 隐藏 在 你 每 天 
都 会 用 到 的 所 有 “小 数据 ”背后 的 错误 信息 ， 并 清楚 地 知道 如 何 应 对 。 


in 


注意 : 这 些 是 一 些 常见 术语 的 一 般 含义 。 

合计 数据 (aggregated data) 一 一 单个 数据 点 汇集 而 成 的 集合 
(例如 将 每 个 州 的 总 选票 数 整 合 起 来， 以 此 判断 谁 会 赢得 总 统 选举 团 
的 选票 ) 。 


平均 值 (average) 概括 性 统计 的 一 种 (通常 是 平均 数 、 众 
数 或 者 中 位 数 ) ， 以 单一 指标 描述 数据 。 


大 数据 (big data) 一 一 是 指 由 于 数量 过 于 庞大 ， 不 借助 精密 仪 
右 或 者 高 级 计算 机 就 无 法 处 理 的 数据 。 


双 变 量 关 系 (bivariate relationship) 一 说 得 直 白 点 ， 即 两 
个 OO 变量 之 间 存 在 的 关系 (例如 ， 房 价 与 卫生 间 的 数量 有 关 ) ° 


MEPS (black swan event) 
而 一 旦 发 生 其 影响 巨大 。 


因果 性 (causation) 一 在 该 关系 中 ， 一 种 因素 会 引起 另 一 种 
因素 发 生 。 


可 能 性 非常 小 的 事件 ， 


MÆ (cherry-picking) 从 数据 中 选择 传闻 的 例子 来 说 明 
自己 的 观点 ， 同 时 名 上 略 其 他 可 能 与 观点 相悖 的 数据 点 。 


置信 区 间 (confidence interval) 一 衡量 关于 结论 数据 确定 
程度 的 方式 ， 往 往 表 现 为 一 个 范围 值 ， 置 信 区 间 体 现 了 一 个 可 能 看 到 
估计 结果 的 范围 (假设 你 有 一 个 随机 的 、 有 代表 性 的 样本 ) 。 


置信 水 平 (confidence level) 一 我 们 用 该 术语 判定 对 正确 衡 
量 数据 的 自信 度 。 


实证 性 偏见 (confirmation bias) 用 巩固 自己 预期 的 方式 
解释 数据 的 倾 回 。 


关联 性 (correlation) 一 两 个 变量 之 间 的 数据 关系 ， 通 常 定 
义 为 正 相 关 〈 朝 同一 方向 发 展 ) 或 者 负 相 关 〈 彼 此 朝 着 相反 方向 发 
展 ) 。 

数据 (data) 

依赖 性 (dependence) 一 一 种 变量 直接 由 一 种 变量 决定 。 


确定 性 预测 (deterministic forecast) 
结果 的 预测 。 《例如 ， 明 天 上 午 9 点 我 家 会 下 雨 。) 


PARAR o 


能 确定 地 得 出 精确 


经 济 影响 (economic impact) 一 事情 会 将 会 耗费 多 少时 
间 、 人 金钱 、 健 康 等 资源 。 


估算 值 (estimate) 一 一 从 一 个 简单 的 样本 数据 就 能 推断 出 整 
体 的 数据 。 


小 数据 (every data) 一 我 们 用 该 词 来 描述 日 常数 据 。 


外 延 有 效 性 (external validity) 一 把 从 样品 中 得 出 的 结论 
加 以 推广 ， 从 而 得 出 对 整个 数据 总 体 有 意义 的 结论 。 


假 阳 性 (false positive ) 
况 。 


数据 预测 预测 出 虚假 结果 的 情 


预测 (forecast) 一 有关 未 来 的 说 法 ， 尽 管 对 特定 人 群 来 讲 ， 
预测 与 预知 含义 可 能 不 同 ， 但 除非 特殊 说 明 ， 我 们 一 般 将 二 者 作为 同 
义 词 使 用 。 


预测 偏差 (forecast bias) 该 术语 用 来 描述 一 贯 偏 高 E 
偏差 ) 或 者 偏 低 ( 负 偏 差 ) 的 预测 误差 。 


推测 (inference) 一 一 得 出 相关 数据 结论 的 过 程 。 
效应 尺度 (magnitude) 一 一 从 本 质 上 说 ， 指 效应 的 大 小 。 
误差 范围 (margin of error) 一 衡量 数据 不 确定 性 的 方式 。 


平均 数 (mean) 一 当 你 说 “平均 值 " 时 ， 多 数 人 想到 的 词 (你 
将 所 有 数值 求 和 ， 然 后 除 以 数据 个 数 就 可 以 得 到 平均 数 了 ) 。 


中 位 数 (median) 位 于 排序 数据 集 最 中 间 的 数值 。 


曲解 (misrepresentation ) 
的 方式 呈现 e 


众 数 (mode) 在 数据 中 出 现 最 频 迷 的 数据 点 。 


观测 (observation) 


数据 以 不 正确 或 容易 引发 误解 


观察 诸如 人 、 价 格 或 者 某 天 的 数据 单 
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比率 (odds) 在 统计 学 中 ， 某 事 发 生 的 比率 是 指 某 一 结 
发 生 与 不 发 生 的 可 能 性 的 比例 (例如 一 匹 马 赢得 一 场 比赛 的 概率 可 能 
是 113， 意 思 是 这 匹 马 每 三 场 比赛 会 赢 一 场 ， 在 博彩 术语 中 ， 比 率 往往 
是 相反 的 ， 同 一 匹 马 获胜 的 比率 是 2:1， 意 思 是 输 挥 比赛 的 可 能 性 为 
2/3) ° 


遗漏 变量 (omitted variable) 在 一 种 关系 中 起 作用 ， 但 
是 可 能 被 包 视 或 者 被 排除 掉 的 变量 。 址 漏 变 量 是 关联 性 不 等 于 因果 性 
的 主要 原因 之 一 。 


离 群 值 (outlier) 不 合群 的 特殊 观察 结果 ， 它 可 能 远 超 
(或 者 低 ) 于 其 他 所 有 数据 ， 或 者 它 只 是 没有 遵循 事情 的 一 般 模式 。 


P 值 黑客 (P-hacking) 一 名字 来 源 于 P 值 ，P 值 黑客 是 指 反复 
分 析 数 据 ， 以 期 让 不 存在 显著 性 差异 的 结果 变 得 存在 显著 性 差异 。 


P 值 (P-value) 衡量 显著 性 差异 的 方式 ，P 值 越 低 ， 你 看 到 
的 结果 源 于 偶然 的 可 能 性 越 低 。 


数据 总 体 (population) 你 想 要 研究 并 得 出 相关 结论 的 数 
据 或 者 观察 结果 的 完整 集合 ， 统 计 学 家 在 研究 中 很 少 能 掌握 全 部 数 
据 ， 但 掌握 一 个 小 型 的 、 经 过 精心 挑选 的 数据 组 是 可 能 的 。 (如 ，100 
名 美国 议员 的 投票 习惯 。) 

预知 (prediction) 


预知 偏差 (prediction error) 一 衡量 未 来 不 确定 性 的 方式 ， 
主要 通过 对 比 事情 发 生 时 的 实际 结果 与 预测 结果 得 出 。 


参见 “预测 ”。 


预测 区 间 (prediction interval) 一 一 下 一 个 数据 点 可 能 出 现 
的 范围 。 


可 能 性 预测 (probabilistic forecast) 一 判定 结果 发 生 概率 
的 预测 (例如 ， 明 天 有 雷雨 的 概率 为 30%) 。 

概率 (probability) 一 一 发 生 结果 的 可 能 性 (往往 用 百分数 、 
分 数 或 者 小 数 表示 ) 。 


指标 (proxy) 与 另 一 个 难以 衡量 的 因素 紧密 关联 的 因素 
(例如 ， 智 商 是 先天 能 力 的 一 个 指标 ) 。 


随机 (random) 一 所 观察 到 的 东西 出 于 偶然 ， 而 不 是 一 个 可 
以 总 结 出 来 的 过 程 或 事件 。 


风险 (risk) 一 一 该 词 的 含义 因 人 而 异 ， 一 般 来 讲 ， 风 险 不 仅 同 
事情 发 生 的 概率 有 关 ， 也 与 其 后 果 有 关 。 


FEA (sample) 一 全 部 数据 中 的 一 部 分 (例如, “挑战 者 
号 ”存在 O 型 环 故 障 的 发 射 任务 ) 。 


样本 选择 (sample selection) 当选 择 样 本 的 方式 直接 与 研 
究 中 的 结果 相关 时 所 出 现 的 潜在 统计 间 题 ， 男 外 有 时 用 于 描述 从 全 音 
数据 中 选取 样本 的 过 程 。 


样本 误差 (sampling error) 一 由 于 不 知道 样本 是 否 代表 全 
部 数据 真实 数值 而 导致 的 不 确定 性 。 


选择 偏差 (selection bias) 一 由 选择 参与 的 人 组 成 样本 时 会 
出 现 的 潜在 问题 ， 该 问题 可 能 会 影响 结果 。 


虚假 关联 (spurious correlation) 没有 实际 的 或 者 经 济 意 
义 的 数据 关系 ， 或 者 是 受 遗 漏 变量 影响 的 关系 IO, RBS UE 
淋 销 量 之 间 的 关系 ) e 


统计 (statistic) 


数 、 中 位 数 、 众 数 等 ) 。 


以 数字 的 方式 描述 数据 某 一 方面 (如 平均 


统计 影响 (statistical impact) 一 产生 了 显著 性 差异 ， 但 未 
确定 其 效应 的 大 小 。 


显著 性 差异 (statistical significance) 一 一 一 种 以 概率 为 基础 
的 方式 ， 用 以 断定 观察 影响 是 以 数据 的 形式 呈现 出 来 ， 还 是 仅仅 随机 
出 现 。 


概括 统计 (summary statistic) 一 该 概念 提供 数据 一 个 或 多 
个 方面 的 信息 。 平 均 数 和 数据 合计 就 是 概括 统计 的 两 个 实例 。 


加 权 平 均值 (weighted average) —— (根据 数值 的 相对 重要 
性 ) 为 数值 加 上 权重 之 后 计算 得 出 的 平均 数 。 


致谢 


本 书 得 以 完成 ， 离 不 开 一 路 上 相信 我 们 并 支持 我 们 的 许 许 多 多 的 


P 


本 书 从 草稿 到 完成 ， 得 到 了 许多 同事 、 朋 友 无 价 的 指教 、 细 致 的 
评点 ， 特 将 姓名 罗列 如 下 : JER E > SR PRA BAN > AR Hh 
Bj - BURR RUD ^ Tame ALEK > SAF C RIGERES- 
Bip] EET E ` RMK ^ JJ. EE TAS ^ SSCS» PESE 
fe DUROS I^ REIR ^ BUTT TARR ^ DEIR AT IRAP) 
组 的 各 位 成 员 致 以 热烈 的 感谢 ， 因 为 他 们 每 天 都 在 谈论 数据 。 


对 于 本 书 的 另 一 批 主要 贡献 者 包括 吉尔 夫 : 巴 尼斯 、 比 尔 福 特 、 瑞 
贝 卡 .格林 美 尔 、 凯 迪 . 郝 尔 、 乔 丹 . 海 格 依 、 弗兰克 . 霍 洛 维 奇 、 华 许 峰 
(比尔 ) > AVR a BM SAR EKE DREIT + A EAE 
4j + SURED + ROP REAR PERAE DREA S TRE 
登 、 罗 西 . 松 西 尔 莫 、 本 -怀特 纳 。 


统计 学 和 经 济 计量 学 不 是 靠 一 个 人 和 攒 至 想 就 能 学 会 的 ， 约 其 多 年 
来 受到 儿 位 态 出 的 经 济 计量 学 教授 的 点 拨 和 指导 ， 这 些 教授 是 染 皮 
E ` AS STS + STC BT > AL ECS HT o 


我 们 非常 感谢 我 们 的 代理 人 特 里 斯 . 考 伯 恩 ， 以 及 在 Bibliomotion 
出 版 社 的 整个 团队 ， 成 员 分 别 是 艾 瑞 卡 、 吉 尔 F、 吉 尔 .S、 艾 丽 西 
亚 、 艾 瑞 、 席 福 恩 、 苏 珊 、 苏 。 


不 过 ， 我 们 把 最 由 圳 的 感谢 留 到 了 最 后 。 因 为 这 本 书 的 撰写 到 出 
版 这 一 整个 过 程 ， 只 有 我 们 的 朋友 以 及 家 庭 成 员 一直 陪 伴 着 我 们 e 


WR. FEAR RU DO PULL] S ELDER XT EG Be TCA TA] BOT 389 
我 们 希望 这 样 的 等 竺 是 值得 的 。 


迈克 尤其 想 谢谢 一 直 文 持 着 他 的 父母 ， 以 及 时 第 会 提出 很 有 道理 
观点 的 哥哥 丹尼尔 ， 还 有 他 的 孩子 扎 元 和 本 (看 ， 孩 子 们 ， 你 们 的 名 
字 印 在 书 里 了 ) 。 当 然 ， 还 要 谢谢 他 的 妻子 马尔 拉 一 直 以 来 的 宽容 相 
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AR EEN MSC R AUKER EMR, TET 2 PE 
HIRR, FEL EIA TER ^ ZAR EROR TH AY) 38 B LSC AT SC 
WA (作家 协会 会 员 ) 的 易 力 支持 。 约 翰 十 分 笠 运 ， 有 着 一 帮 全 身心 
SOPRA AAA, TREC] ` Mae oe + REAR > TE 
MARRIT > BE ESE IR > KAMER > ERA > We LE 
4p > WAGER EE > ANAM Es ^ BE ^ TPR BERL > SRR OKIR 
Wo RA ` APRS BUE AGIEBHAUE EMT CIA ^ ROW TES 
BTR EMS, APA Tee, AAA JR E E 
(还 要 感谢 他 们 真 的 成 功 地 把 这 本 书 预 售 给 了 朋友 们 ) 。 最 后 ， 当 然 
也 是 十 分 重要 的 ， 束 是 感谢 约翰 的 妻子 殉 里 斯 带 ， 对 于 约翰 以 及 他 的 
疯狂 想法 ， 她 目 始 至 终 都 很 文 持 。 


